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图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
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但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
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我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 
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Megan Squire 


依 隆 大 学 计算 科学 专业 教授 ， 主 要 教授 数 
据 库 系统 、Web 开 发 、 数 据 挖 气 和 数据 科 
学 课程 。 有 二 十 年 的 数据 收集 与 清洗 经 
验 。 她 还 是 FLOSSmole 研 究 项 目的 领导 
者 ， 致 力 于 收集 与 分 析 数 据 ， 以 便 研 究 免 
费 软件 、 自 由 软件 和 开源 软件 的 开发 。 


任 政委 


辽宁 滨 城 大 连 现役 程序 员 一 枚 ， 长 期 从 事 
一 线 软件 开发 工作 ， 近 年 来 为 成 为 一 名 “ 思 
路 清晰 ”“ 视 角 独 特 ”“ 不 搞 办 公 室 政治 ” 
“输出 有 生命 力 代 码 ”“ 和 凭借 技术 知识 普 惠 
初中 级 上 T 从 业者 ”的 终身 制 全 栈 式 程序 员 而 
不 懈 努 力 。 曾 经 翻译 《Oracle PL/SQL 攻 略 》 
一 书 ， 并 希望 这 本 《干净 的 数据 》 能 够 为 奋 
战 在 IT 前 线 上 的 各 界 小 伙伴 们 带 来 日 常 工作 
之 外 的 另类 体验 。 
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本 书 主要 内 容 包括 :数据 清洗 在 数据 科学 领域 中 的 习 
织 和 处 理 数据 的 电子 表格 与 文本 编辑 器 ， 各 种 格式 数据 的 转换 方法 ， 解 析 和 清洗 网 页 上 的 HTML 文件 的 
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三 种 策略 ， 提 取 和 清洗 PDF Xf 


F 中 数据 的 方法 ， 检 测 和 清除 RDBMS 中 的 坏 数 据 的 解决 方案 ， 以 及 使 用 书 


中 介绍 的 方法 清洗 来 自 Twitter 和 Stack Overflow 的 数据 。 





























重要 作用 , 文件 格式 、 数 据 类 型 、 字 符 编码 的 基本 概念 
































本 书 适合 任何 水 平 的 数据 科学 家 以 及 对 数据 清理 感 兴 趣 的 读者 阅读 。 
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“请 问 ， 巴 贝 奇 先生 ， 如 果 把 错误 的 数据 放 进 机 器 中 ， 是 否 能 够 得 到 正确 的 答案 呢 ? ” 
查尔斯 . 巴 贝 奇 (1864 ) 





一 一 美国 国税 局 (1963) 


“压根 儿 就 没有 干净 的 数据 集 。” 
fidc 沙 利文 , 《财富 》 杂 上 志 收 录 的 博思 艾 伦 咨询 公司 副 总 裁 语录 (2015) 








世界 上 第 一 台 计 算 机 的 发 明 者 查尔斯 巴 贝 奇 ， 在 他 1864 年 的 随笔 文集 中 记录 了 这 样 一 件 
事 , 他 曾经 因为 有 人 认为 在 输入 错误 数据 的 情况 下 计算 机 依然 能 够 给 出 正确 答案 而 错 情 不 止 ,100 
年 以 后 ， 美 国税 务 部 门 开始 耐心 地 向 人 们 解释 “ 错 进 ， 错 出 ”， 以 此 来 表达 即便 是 能 力 再 强 的 税 
收 官 ， 在 用 计算 机 处 理 数 据 时 ,依旧 要 依赖 输入 数据 的 质量 。 又 过 了 50 年 ， 到 了 2015 年 ， 在 这 个 
看 起 来 超级 神奇 的 时 代 ， 有 着 机 器 学 习 、 自 动 纠 错 、 预 想 接口 以 及 比 我 们 本 人 更 为 了 解 我 们 自己 
的 各 种 推荐 系统 。 然 而 ， 这 一 切 的 算法 背后 ， 仍 旧 需 要 高 质量 的 数据 来 保证 学 习 的 正确 性 ， 而 我 
们 往往 会 叹息 道 “ 压 根 儿 就 没有 干净 的 数据 集 ”。 


本 书 正 是 为 那些 时 常 需 要 与 数据 打交道 的 人 准备 的 ,包括 数据 科学 家 、 数 据 新 闻 记 者 、 软 件 
开发 人 员 以 及 其 他 相关 人 士 。 无 论 你 从 事 的 是 哪 种 职业 ,本 书 都 会 传授 你 一 套 快速 而 简便 的 实用 
策略 ， 用 来 填补 现 有 数据 和 期 望 数据 之 间 的 空白 。 人 人 都 期 盼 能 够 拥有 高 质量 的 完美 数据 , 但 现 
实 中 的 数据 往往 与 我 们 的 期 盼 相去 其 远 ,我 们 是 否 正 在 饱 受 各 种 折磨 呢 ?” 数 据 不 是 缺失 就 是 格式 
不 对 ， 或 者 位 置 错 误 ， 还 有 各 种 异常 情况 ， 而 这 些 问 题 导致 的 结果 可 以 借用 说 唱歌 手 克 里 斯 托 
Jb 华 莱 士 的 一 句 歌 词 来 表达 ， 那 就 是 “数据 越 多 ， 麻 烦 越 大 ”。 


在 本 书 中 , 我 们 始终 把 数据 清洗 当成 数据 科学 过 程 中 有 着 重要 意义 和 重大 价值 的 一 步 : 轻松 
改进 , 不 容 忽 视 。 我们 的 目标 就 是 重新 定义 数据 清洗 , 它 不 再 是 开始 真正 的 工作 之 前 所 必须 做 的 
令 人 旦 惧 和 乏味 的 工作 。 相 反 , 我 们 会 使 用 久 经 考验 的 过 程 与 工具 。 我 们 会 了 解 到 ， 就 好 比 在 厨 
房 中 做 菜 ， 如 果菜 洗 干 净 了 , 食物 的 色 和 味 就 不 会 差 , 我 们 自己 也 会 倍 感 愉悦 。 如 果 再 有 良好 的 
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刀 工 ， 肉 就 会 鲜嫩 可 口 , 菜 也 会 人 味 均匀 。 就 像 手艺 高 超 的 大 厨 们 都 有 他 们 钟爱 的 厨具 和 豪 饪 手 
法 一 样 ， 数 据 科 学 家 们 也 想 在 绝 佳 的 条 件 下 处 理 最 为 完美 的 数据 。 





本 书 内 容 


第 1 章 ， 为 什么 需要 清洗 数据 。 这 一 章 通过 说 明 数 据 清洗 在 数据 科学 过 程 中 的 重要 作用 ， 激 
发 我 们 对 干净 数据 的 追求 。 随后 用 一 个 简单 的 例子 演示 了 现实 世界 中 的 脏 数据 。 在 充分 衡量 多 种 
清洗 过 程 的 优 缺 点 之 后 ， 讲 述 了 如 何 将 清洗 所 带 来 的 变化 告诉 其 他 人 。 


第 2 章 ， 基 础 知识 一 一 格式 、 类 型 与 编码 。 这 一 章 介绍 关于 文件 格式 、 压 缩 和 数据 类 型 的 基 
础 知识 ,同时 也 讨论 了 数据 缺失 和 空 数据 ， 以 及 字符 编码 方面 的 问题 。 每 一 节 都 配 有 一 个 真实 的 
案例 。 这 一 章 之 所 以 重要 ， 是 因为 后 面 儿童 的 学 习 都 以 这 一 童 的 基本 概念 为 基础 。 


第 3 章 ， 数 据 清洗 的 老 黄牛 一 一 电子 表格 和 文本 编辑 器 。 这 一 章 描 述 了 如 何 从 常见 的 电子 表 
格 和 文本 编辑 器 中 , 尽 可 能 多 地 发 掘 出 数据 清洗 功能 。 我 们 还 介绍 了 一 些 常 见 问题 的 简便 处 理 方 
法 ,包括 如 何 使 用 函数 、 搜 索 和 替换 、 正 则 表达 式 来 实现 数据 纠 错 和 转换 。 在 这 一 章 的 结尾 处 ， 
我 们 将 利用 已 经 掌握 的 技能 ， 使 用 上 述 两 种 工具 来 完成 一 个 与 大 学 有 关 的 数据 清洗 任务 。 


第 4 章 ， 讲 通用 语言 一 一 数据 转换 。 这 一 章 着 重 讨论 了 如 何 把 数据 从 一 种 格式 转换 成 男 一 种 
格式 。 这 是 数据 清洗 工作 的 重要 任务 之 一 , 而 我 们 身边 各 种 各 样 的 工具 能 帮助 我 们 轻松 完成 该 项 
任务 。 我 们 首先 在 几 种 常见 的 格式 之 间 来 回 进 行 转换 ， 如 逗号 分 隔 值 (CSV )、JSON 和 SQL。 为 
了 演示 如 何在 实际 中 使 用 这 些 技术 , 我 们 会 完成 一 个 实验 项 目 。 我 们 会 从 Facebook 上 下 载 好 友 关 
系 网 络 数 据 ， 并 把 它们 转换 成 不 同 的 数据 格式 ， 以 形象 化 地 展现 数据 之 间 的 关系 。 


第 5 章 ， 收 集 并 清洗 来 自 网 络 的 数据 。 这 一 章 描述 了 三 种 专门 针对 HTML 页 面 的 数据 清洗 方 
法 。 其 中 介绍 了 如 何 利用 三 种 流行 工具 从 标记 文本 中 提取 数据 ， 同 时 介绍 了 一 些 基 本 概念 ， 以 便 
理解 其 他 方法 。 在 这 一 章 的 例子 中 , 我 们 会 建立 起 一 系列 的 清洗 步 又, 专门 用 于 从 网 络 论坛 中 抽 
取 数 据 。 


第 6 章 ,清洗 PDF 文件 中 的 数据 .这 一 章 介 绍 了 几 种 最 为 常见 的 数据 顽症 处 理 方法 :提取 Adobe 
的 PDF 文件 中 的 数据 。 我 们 先 采 用 一 些 低 成 本 的 工具 来 完成 这 项 任务 ， 然 后 再 选择 一 些 容 易 上 手 
并 且 门 槛 较 低 的 工具 , 最 后 采用 Adobe 自 己 的 付费 软件 。 所 有 实验 都 会 一 如 既往 地 使 用 真实 数据 ， 
这 能 让 我 们 在 学 会 解决 问题 的 同时 积累 宝贵 的 经 验 。 


第 7 章 , RDBMS 清 洗 技 术 。 在 这 一 童 里 , 我 们 使 用 对 公众 开放 的 推 文 数据 来 演示 多 种 适用 于 
关系 型 数据 库 的 数据 清洗 策略 。 例 子 中 使 用 的 数据 库 是 MySQL， 但 其 中 的 许多 概念 ， 如 基于 正 
则 表达 式 的 文本 提取 和 异常 检测 ， 可 以 轻而易举 地 应 用 到 其 他 存储 系统 中 。 


第 8 章 ， 数 据 分 享 的 最 佳 实践 。 这 一 章 描 述 了 多 种 分 享 清洗 过 的 数据 的 方法 ， 以 便 他 人 轻松 
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地 使 用 你 的 数据 。 即 使 你 暂时 还 没有 分 享 数 据 的 打算 , 这 些 方法 和 策略 也 会 对 你 以 后 组 织 工作 中 
的 数据 有 所 和 帮助。 本章 具 体内 容 包括 如 何 创 建 各 种 格式 的 理想 数据 包 , 如 何在 文档 中 对 这 些 数 据 
进行 描述 ， 如 何 为 数据 选择 适合 的 许可 协议 ， 以 及 如 何 按 需 进行 数据 发 布 。 


第 9 章 ，Stack Overflow 项 目 。 在 这 一 章 中 我 们 将 使 用 真实 的 数据 来 指导 你 完成 一 个 完整 的 项 
Ho 在 项 目 开始 前 , 我们 会 提出 一 些 与 数据 集 有 关 的 实 实在 在 的 问题 。 在 回答 这 些 问题 期 间 , 我 
们 将 完成 第 1 章 中 所 介绍 的 整个 数据 科学 过 程 ， 并 把 在 前 面 几 章 学 过 的 清洗 方法 应 用 到 其 中 。 除 
此 之 外 ,为 了 应 对 庞大 的 数据 量 ， 我 们 还 将 采用 一 些 新 的 技术 来 创建 测试 数据 集 。 


第 10 章 ，Twitter 项 目 。 这 一 章 描述 的 也 是 一 个 完整 的 项 目 , 其 目的 是 为 了 演示 如 何 执行 最 热 
和 变化 最 快 的 数据 收集 和 清洗 任务 : Twitter 挖 据 。 在 演示 中 , 我们 将 会 查找 并 收集 与 某 一 时 事 相 
关 的 可 公开 获取 的 推 文 归 档 数据 ， 同 时 遵守 Twitter 服务 条 款 。 数 据 采 用 的 是 目前 网 络 API 所 文 持 
的 最 为 流行 的 JSON 格 式 。 在 清洗 和 提取 数据 的 同时 ， 我 们 还 将 解答 一 个 与 数据 集 有 关 的 简单 问 
题 。 最后, 我 们 将 设计 一 个 简单 的 数据 模型 , 用 它 来 长 期 存放 已 经 抽取 出 来 并 且 经 过 清洗 的 数据 ， 
并 做 一 些 简单 的 可 视 化 实现 。 































































































你 需要 准备 些 什么 
为 了 完成 本 书 中 的 项 目 ， 你 会 用 到 下 面 这 些 工具 和 资源 。 


口 一 款 浏 览 器 ， 互 联网 接 和 人 人， 现代 的 操作 系统 。 我 们 对 浏览 器 和 操作 系统 本 身 没 有 什么 特 
别 的 要 求 ， 但 最 好 能 支持 命令 行 终端 窗口 (比如 OS X 上 的 Terminal 应 用 )。 另 外 ， 在 第 5 
章 里 涉及 的 三 项 活动 中 ， 有 一 项 要 依靠 Chrome 浏 览 器 所 提供 的 一 个 工具 ， 所 以 如 果 你 想 
顺利 完成 这 项 活动 的 话 ， 请 务必 准备 充分 。 

O 文本 编辑 器 ， 如 Mac OS X 上 的 Text Wrangler， 或 是 Windows 上 的 Notepad++。 有 的 集成 开 
发 环境 (IDE， 如 Eclipse ) 也 可 以 用 来 充当 文本 编辑 器 ， 但 这 些 应 用 往往 捆绑 了 太 多 你 根 
本 不 需要 的 特性 。 

O 电子 表格 应 用 程序 ， 如 微软 的 Excel， 或 者 是 Google 的 Spreadsheets。 本 书 中 提供 的 例子 会 

尽量 保证 在 这 两 种 工具 下 都 可 以 正常 运行 ， 但 有 时 也 可 能 只 能 在 一 种 工具 下 运行 。 

O 安装 Python 开发 环境 与 Python 库 。 我 推荐 使 用 Enthought Canopy Python 环境 ， 其 地 址 为 

https://www.enthought.com/products/canopy/。 

D 一 个 能 够 运行 的 MySQL， 版 本 需要 在 5.5 以 上 。 

口 Web 服 务 器 和 PHP，PHP 版 本 要 求 5 以 上 。 

口 MySQL 客 户 端 接口 ， 可 以 是 命令 行 终端 ， 也 可 以 是 MySQL Workbench, ， 或 者 是 
phpMyAdmin ( 前 提 是 你 已 经 装 好 了 PHP )。 


































































































本 书 的 目标 读者 


如 果 你 现在 正在 读 这 本 书 的 话 , 我 猜想 你 可 能 属于 下 面 两 类 人 之 一 。 第 一 类 是 在 数据 清洗 工 
作 上 花费 了 大 量 时 间 的 数据 科学 家 , 希望 可 以 进一步 提高 工作 效率 。 在 面 对 乏 味 单调 的 数据 清洗 
任务 时 ， 你 也 许 会 觉得 有 些 苦 问 ， 正 在 寻求 能 够 加 快 处 理 速度 、 提 高 效率 的 方法 ， 或 者 想 着 是 否 
有 些 别 的 什么 工具 可 以 立马 把 工作 做 完 。 在 厨房 的 比喻 中 , 你 恰好 就 是 那个 需要 提高 刀 工 本 领 的 
st. 


另 一 类 是 从 事 数据 科学 工作 , 但 之 前 从 未 真正 在 乎 过 数据 清洗 这 件 事 的 人 。 但 是 现在 , 你 开 
始 琢 麻 了 ， 如 果 事 和 匈 引 入 清洗 过 程 ， 最 终 得 出 的 数据 结果 也 许 会 有 所 改善 。 也 许 “ 错 进 ， 错 出 ” 
这 名 老话 让 你 觉得 越发 地 真实 。 也 许 你 还 是 一 个 乐于 与 他 人 分 享 数 据 成 果 的 人 , 但 又 常常 对 产 出 
的 数据 质量 缺乏 信心 。 通 过 本 书 , 你 可 以 学 会 更 多 的 技巧 并 养 成 保持 整洁 的 数据 科学 环境 的 习惯 ， 
随后 自然 可 以 信心 满 满 地 “当众 献艺 ”。 


但 无 论 你 属于 哪 一 类 人 , 本 书 都 将 帮助 你 重 塑 数据 清洗 的 观念 ,让 数据 清洗 不 再 是 一 件 苦 差 
事 ， 而 是 高 质量 、 有 品位 、 时 尚 和 高 效 的 标志 。 你 只 需 稍 有 一 些 编程 背景 即 可 ， 不 要 求 在 这 方面 
特别 强 , 因为 在 大 部 分 数据 科学 项 目 中 , 发 自 内 心 的 学 习 意愿 和 实验 意愿 ， 以 及 好 奇 心 和 对 细节 
的 注重 ， 更 为 重要 ， 也 更 令 人 推崇 。 





























































































































本 书 排版 约定 


本 书 中 会 出 现 许多 用 来 区 分 不 同类 型 信息 的 文本 格式 。 接 下 来 看 一 下 这 些 格式 以 及 它们 所 对 
应 的 含义 。 


正文 中 的 代码 、 数 据 库 表 名 、 用 户 输 入 会 以 等 宽 字 体 进行 表示 ， 如 :“ 问 题 是 函数 open () 
不 能 处 理 UTF-8 编 码 的 字符 。” 


代码 块 的 表现 形式 如 下 : 
































for tweet in stream: 
encoded tweet = tweet['text'].encode('ascii','ignore') 
print counter, "-", encoded tweet[0:10] 
f.write(encoded tweet) 


另外 ， 当 我 们 希望 你 特别 注意 代码 块 中 的 某 些 部 分 时 ， 相 关 的 行 或 者 文字 会 被 加 粗 : 


First name,birth date,favorite color,salary 
"Sally","1971-09-16","light b1lue",129000 
"Manu","1984-11-03","",159960 
"Martin","1978-12-10","",76888 


命令 行 中 的 输入 和 输出 内 容 表示 如 下 : 


uj 


viii 前 





tar cvf fileArchive.tar reallyBigFile.csv anotherBigFile.csv 
gzip fileArchive.tar 


新 术语 和 重点 词汇 均 采 用 楷体 字 表 示 。 


[ CAN 这 个 图 标 表示 警告 或 需要 特别 注意 的 内 容 。 | 


M 
| Q 这 个 图 标 表示 提示 或 者 技巧 。 ] 


读者 反馈 

我 们 总 是 欢迎 读者 的 反馈 。 如 果 你 对 本 书 有 些 想法 ， 有 什么 喜欢 或 是 不 喜欢 的 ,请 反馈 给 我 
们 。 这 将 有 助 于 我 们 开发 出 能 够 充分 满足 读者 需求 的 图 书 。 

一 般 的 反馈 ， 请 发 送 电子 邮件 至 feedback@packtpub.com， 并 在 邮件 主题 中 包含 书 名 。 


如 果 你 在 某 个 领域 有 专长 ， 并 有 意 编 写 一 本 书 或 是 贡献 一 份 力量 ， 请 参考 我 们 的 作者 指南 ， 
地 址 为 http://www.packtpub.com/authors。 























客户 支持 
你 现在 已 经 是 Packt 引 以 为 做 的 读者 了 ， 为 了 能 让 你 的 购买 物 有 所 值 ， 我 们 还 为 你 准备 了 以 
下 内 容 。 





彩色 图 片 下 载 


我 们 为 你 准备 了 一 个 PDF 文 件 ， 其 中 包含 了 本 书 用 到 的 屏幕 截图 和 图 表 的 彩色 图 片 。 这 些 彩 
色 图 片 将 有 助 于 你 更 好 地 理解 书 中 的 内 容 。 该 文件 的 下 载 地 址 是 https://www.packtpub.conysites/ 
default/files/downloads/Clean Data Graphics.zip。 





勘误 表 
虽然 我 们 已 竭尽 全 力 确保 本 书 内 容 的 准确 性 , 但 仍 可 能 有 所 玻 漏 。 如 果 你 发 现 了 书 中 哪些 地 
方 有 误 一 一 这 些 问题 可 能 出 现在 正文 或 是 代码 之 中 一 一 请 告知 我 们 , 对 此 我 们 将 万 分 感谢 。 你 的 














这 种 贡献 将 让 其 他 读者 免 受 其 害 , 并 对 本 书后 续 版 本 的 改进 有 着 莫大 的 帮助 。 如 果 你 发 现 了 错误 ， 
请 通过 http:/www.packtpub.com/submit-errata 进 行 提 交 ， 先 选择 书 名 ， 然 后 点 击 链接 Errata 
Submission Form, 就 可 以 输入 详细 内 容 了 。 勘误 一 经 核实 ,我 们 就 会 把 它 上 传 到 我 们 的 网 站 或 是 
添加 到 现 有 勘误 表 中 。 


如 果 你 需要 查看 之 前 已 经 提交 的 勘误 信息 ， 请 访问 https:/www.packtpub.com/books/content/ 
support， 在 搜索 栏 中 输入 书 名 ， 就 可 以 查看 现 有 的 勘误 表 。 


























关于 盗版 


受 版 权 保护 的 材料 在 互联 网 上 遭 到 盗版 是 所 有 媒体 都 一 直 在 面 对 的 问题 。Packt 非 常 重视 保 
护 版 权 和 许可 证 。 如 果 你 发 现 我 们 的 作品 在 互联 网 上 被 非法 复制 , 不 管 以 什么 形式 , 请 立即 为 我 
们 提供 其 网 络 地 址 或 是 网 站 名 称 ， 我 们 将 采取 相应 的 应 对 措施 。 


请 将 疑似 的 盗版 材料 链接 发 送 至 copyright@packtpub.com。 
非常 感谢 你 帮助 我 们 保护 作者 ， 以 及 保护 我 们 给 你 带 来 有 价值 内 容 的 能 


























问题 反馈 


如 果 你 有 关于 本 书 任何 方面 的 问题 ， 请 联系 questions@packpub.com， 我 们 将 尽快 帮 你 解决 。 
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为 什么 需要 清洗 数据 








大 数据 、 数 据 挖掘 、 机 器 学 习 和 可 视 化 ,近来 计算 界 的 几 件 大 事 好 像 总 也 绕 不 开 数 据 这 个 主 
角 。 从 统计 学 家 到 软件 开发 人 员 ， 再 到 图 形 设 计 师 , 一 下 子 所 有 人 都 对 数据 科学 产生 了 兴趣 。 便 
宜 的 硬件 、 可 靠 的 处 理工 具 和 可 视 化 工具 ， 以 及 海量 的 免费 数据 ,这 些 资源 的 汇集 使 得 我 们 能 够 
比 以 往 任何 一 个 时 期 更 加 精准 地 、 轻 松 地 发 现 趋势 、 预 测 未 来 。 


不 过 ， 你 可 能 还 未 听 说 过 的 是 ， 数 据 科 学 的 这 些 希 望 与 梦想 都 建立 在 乱七八糟 的 数据 之 上 。 
在 正式 应 用 于 我 们 认为 是 数据 科学 的 核心 的 算法 和 可 视 化 之 前 , 这 些 数 据 往往 需要 经 过 迁移 、 压 
缩 、 清 洗 、 打 散 、 分 片 、 分 块 以 及 其 他 多 种 转换 处 理 。 

本 章 内 容 将 涵盖 以 下 几 个 方面 : 

口 关于 数据 科学 的 六 个 简单 处 理 步骤 ,包含 数据 清洗 

口 与 数据 清洗 有 关 的 参考 建议 

口 对 数据 清洗 有 帮助 的 工具 

Q 一 个 关于 如 何 将 数据 清洗 融入 整个 数据 科学 过 程 的 入 门 示 例 












































1.1 新 视角 


最 近 我 们 读 报时 发 现 《纽约 时 报 》 将 数据 清洗 称 为 看 门人 工作 ,并 称 数据 科学 家 百 分 之 八 十 
的 时 间 都 花费 在 了 这 些 清洗 任务 上 。 从 下 图 中 我 们 可 以 看 出 ,尽管 数据 清洗 是 很 重要 的 工作 , 但 
它 并 没有 像 大 数据 、 数 据 挖掘 或 是 机 器 学 习 那 样 真 正 地 引起 公众 的 注意 。 











2 第 1 章 为 什么 需要 清洗 数据 








2007~2014 年 Google Trends 上 “数据 ”一 词 的 流行 程度 


大 数据 


数据 挖 所 
一 机 器 学 习 


数据 清洗 











2007 2000 —— 2011 2013 











不 会 真 的 有 人 因为 没有 见 过 人 们 聚众 讨论 看 门人 的 工作 多 么 有 趣 、 多 么 酷 而 开始 评 头 论 足 
"E? 说 起 来 还 真是 属 愧 ， 这 工作 没 比 做 家 务 强 到 哪里 去 , 但 话 又 说 回来 ,与 其 对 它 弃 之 不 理 、 抱 
怨 不 断 、 恶 语 相 加 ， 还 不 如 先 把 活 儿 干 完 ， 这 能 让 我 们 过 得 更 好 些 。 


还 不 相信 是 吗 ? 那 让 我 们 打 个 比方 , 你 不 是 数据 看 门人 ， 而 是 数据 大 厨 。 现 在 有 人 交 给 你 一 
个 购物 篮 ， 里 面 装 满 了 你 从 未 见 过 的 各 种 各 样 的 漂亮 蕊 菜 ， 每 一 样 都 产 目 有 机 农场 ,并 在 最 新 鲜 
的 时 候 经 过 人 工 精 挑 细 选 出 来 。 多 汁 的 西红柿 ， 生 脆 的 黄 苔 , 油 亮 的 胡椒 。 你 一 定 激动 地 想 马 上 
开启 豪 饪 之 旅 ,可 再 看 看 周围 ， 厨房 里 肪 脏 不 堪 ， 锅 碗 声 倪 上 尽 是 油污 ;还 沾 着 大 块 叫 不 出 名 的 
东西 。 至 于 厨具 ， 只 有 一 把 锈 迹 斑 斑 的 切 刀 和 一 块 湿 抹 布 。 水 槽 也 是 破 破烂 烂 的 。 而 恰恰 就 在 此 
时 ,你 发 现 从 看 似 鲜美 的 芮 芭 下 面 候 出 了 一 只 甲 忠 。 


即使 是 实习 厨师 也 不 可 能 在 这 样 的 地 方 豪 饪 。 往 轻 了 说 ,无 外 乎 是 暴 珍 天 物 ， 浪 费 了 一 篮子 
精美 的 食材 。 如 果 严 重点 儿 讲 ， 这 会 使 人 致 病 。 再 说 了 , 在 这 种 地 方 豪 饪 根本 毫 无 乐趣 可 言 ， 也 
许 全 天 的 时 间 都 得 浪费 在 用 生 锈 的 破 刀 切 菜 上 面 。 


与 厨房 的 道理 一 样 , 事先 花费 些 时 间 清 洗 和 准备 好 数据 科学 工作 区 、 工 具 和 原始 数据 ， 都 是 
值得 的 。“ 错 进 , 错 出 。” 这 人 句 源 于 上 20 世 纪 60 年 代 的 计算 机 编程 能 言 ， 对 如 今 的 数据 科学 来 说 亦 
为 真理 。 



































































































































1.2 ”数据 科学 过 程 

数据 清洗 是 如 何 融 入 数据 科学 中 的 呢 ? 简 短 的 回答 就 是 , 清洗 工作 是 关键 的 一 步 , 它 直 接 影 
响 在 它 之 前 和 之 后 的 处 理工 作 。 

稍微 长 一 些 的 回答 就 得 围绕 数据 科学 过 程 的 六 个 步骤 来 描述 了 , 请 看 下 面 的 列表 。 数据 清洗 
正好 处 于 中 间 的 位 置 ， 第 三 步 。 但 是 , 请 不 要 以 纯 线 性 方式 看 待 这 些 步骤 ,简单 地 认为 这 是 一 个 
从 头 到 尾 执行 的 框架 ， 其 实在 项 目的 迭代 过 程 中 ,我们 会 根据 具体 情况 ,反复 执行 这 些 步 又 。 另 
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外 还 需要 指出 的 是 ,并 不 是 每 一 个 项 目 都 会 包含 列表 中 所 有 的 步骤 。 举 个 例子 ， 有 时 候 我 们 并 不 
需要 数据 收集 或 可 视 化 步 又 。 这 完全 取决 于 项 目的 实际 情况 。 


(1) 第 一 步 是 问题 陈述 。 识 别 出 你 要 解决 的 问题 是 什么 。 
(2) 接 下 来 要 做 的 是 数据 收集 与 存储 。 数 据 从 何 而 来 ?它们 在 哪里 存放 ? 格式 又 是 什么 ? 


(3) 然后 是 数据 清洗 。 数 据 需要 修改 吗 ?” 有 什么 需要 删除 的 吗 ? 数据 应 该 怎么 调整 才能 适用 
于 接 下 来 的 分 析 和 挖掘 ? 


(4) 数据 分 析 和 机 器 学 习 。 数 据 需 要 哪些 处 理 ?” 需 要 什么 样 的 转换 ? 使 用 什么 样 的 算法 ? xs 
用 什么 公式 ? 使 用 什么 机 器 学 习 算法 ? 顺序 又 是 怎样 的 呢 ? 


(5) 数据 展现 和 可 视 化 实现 。 数 据 处 理 结果 应 该 怎样 呈现 出 来 呢 ? 我 们 可 以 用 一 张 或 几 张 数 
据 表 来 表现 ， 也 可 以 使 用 图 画 、 图 形 、 图 表 、 网 络 图 、 文 字 云 、 地 图 等 形式 。 但 这 是 最 佳 的 可 视 
化 方案 吗 ? 有 没有 更 好 的 替代 方案 呢 ? 


(6) 最 后 一 步 是 问题 决议 。 你 在 第 一 步 里 所 提出 的 疑问 或 是 问题 的 答案 究竟 是 什么 ?数据 处 
理 结果 还 有 哪些 不 足 ? 这 个 方法 能 彻底 解决 问题 吗 ? 你 还 能 找 出 别 的 什么 办 法 吗 ? 接 下 来 要 做 
的 又 是 什么 ? 


在 数据 分 析 、 挖 掘 、 机 需 学 习 或 是 可 视 化 实现 之 前 ,做 好 相关 的 数据 清洗 工作 意义 重大 。 不 
过 ,请 牢记 ， 这 是 一 个 迭代 的 过 程 ， 因 为 在 项 目 中 我 们 可 能 需要 不 止 一 次 地 执行 这 些 清洗 操作 。 
此 外 , 我 们 所 采用 的 挖掘 或 分 析 方 法 会 影响 清洗 方式 的 选取 。 我 们 可 以 认为 清洗 工作 包含 了 分 析 
方法 所 能 决定 的 各 种 任务 ， 这 有 可 能 是 交换 文件 的 格式 、 字 符 编 码 的 修改 、 数 据 提取 的 细节 等 。 


数据 清洗 与 数据 收集 和 存储 ( 第 2 步 ) 的 关系 也 十 分 密切 。 这 意味 着 你 得 收集 原始 数据 ， 对 
它们 执行 存储 和 清洗 操作 , 之 后 再 把 清洗 过 的 数据 保存 下 来 ,， 接 下 来 收集 更 多 的 数据 ,清洗 新 的 
数据 并 把 清洗 结果 与 前 面 处理 完 的 结果 数据 结合 起 来 ， 重 新 进行 清洗 、 保 存 等 操作 ， 反 反复 复 。 
正 因为 这 个 过 程 非常 复杂 , 所 以 我 们 要 么 选择 牢 牢 记 住 曾经 做 过 的 处 理 , 并 记录 下 那些 可 以 根据 
需要 反复 执行 的 步 又 ， 要 么 把 工作 的 全 部 状况 告知 其 他 相关 人 员 。 
























































































































































1.3 ”传达 数据 清洗 工作 的 内 容 

六 步 处 理 过 程 是 围绕 着 问题 和 解决 方案 这 个 故事 线 组 织 的 ， 因 此 ， 在 作为 报表 框架 使 用 时 ， 
它 的 表现 十 分 优秀 。 如 果 你 已 经 决定 使 用 六 步 框架 来 实现 数据 科学 过 程 报表 , 将 发 现 只 有 到 了 第 
三 步 你 才 会 真正 开始 进行 与 清洗 有 关 的 工作 。 

哪怕 你 并 不 需要 把 数据 科学 过 程 制 成 正式 的 报告 文档 , 你 仍然 会 发 现 , 认真 地 记录 下 曾经 按 
什么 顺序 做 了 些 什么 事情 ， 对 以 后 的 工作 也 是 极 有 帮助 的 。 
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请 记 住 ， 哪 怕 是 规模 再 小 、 风 险 再 低 的 项 目 ， 你 也 要 面 对 至 少 两 人 规模 的 受众 : 现在 的 你 和 
六 个 月 之 后 的 你 。 请 相信 我 说 的 话 , 因为 六 个 月 之 后 的 你 基本 上 不 会 记得 今天 的 你 做 过 什么 样 的 
清洗 工作 ， 也 不 记得 其 中 的 缘由 ， 更 谈 不 上 如 何 重新 再 做 一 次 。 


要 解决 这 个 问题 , 最 简单 的 方案 就 是 保留 一 份 工 作 日 志 。 这 个 日 志 应 该 包含 链接 、 屏 幕 截图 ， 
或 是 复制 粘贴 你 曾经 运行 过 的 具体 的 命令 , 并 配 上 为 什么 要 这 样 做 的 解释 性 文字 。 下 面 是 一 个 关 
于 小 型 文本 挖掘 项 目的 日 志 示例 , 其 中 记述 了 每 个 阶段 输出 的 外 部 文件 链接 以 及 相关 的 清洗 脚本 
链接 。 如 果 你 对 日 志 中 提 到 的 某 些 技 术 不 太 熟 悉 的 话 ， 也 没有 关系 ， 因 为 这 个 示例 的 重点 只 是 让 
你 了 解 一 下 日 志 的 样子 而 已 。 


(1) 我 们 写 了 一 条 SQL 查 询 语句 来 检索 出 每 条 数据 及 其 相关 描述 。 


(2) 为 了 能 在 Python 中 进行 词 频 分 析 ， 我 们 需要 把 数据 调整 成 JSON 格 式 。 因 此 我 们 做 了 一 个 
PHP 脚 本 ， 用 它 来 循环 遍历 查询 结果 ， 并 以 JSON 格 式 保存 到 文件 中 (第 一 个 版 本 的 数据 文件 )。 


(3) 这 个 文件 里 的 数据 有 些 格式 上 的 错误 ， 比 如 包含 了 没有 转 义 的 问号 和 一 些 多 余 的 内 骨 
HTML 标 签 。 这 些 错 误 可 以 在 第 二 个 PHP 脚 本 中 修正 。 运 行 第 二 个 脚本 之 后 ， 我 们 就 可 以 得 到 一 
份 干 净 的 JSON 文 件 了 (第 二 个 版 本 的 数据 文件 )。 


这 里 需要 注意 的 是 , 我 们 用 日 志 来 解释 程序 做 过 什么 和 这 样 做 的 原因 。 日 志 的 内 容 可 以 很 简 
短 ， 但 要 尽 可 能 地 包含 一 些 有 用 的 链接 。 


另外 , 我们 还 可 以 选择 许多 更 复杂 的 方案 来 传达 信息 。 例如， 如 果 你 对 软件 项 目 管理 中 常用 
的 版 本 控制 系统 比较 熟悉 的 话 ， 如 Git 或 是 Subversion， 就 可 以 好 好 地 规划 设计 一 番 ， 想 想 怎么 使 
用 这 些 工具 来 跟踪 数据 清洗 工作 。 不管 你 使 用 什么 样 的 系统 ,最 重要 的 事情 是 做 好 日 志 ， 哪怕 只 
有 一 句 话 。 来 吧 ， 学 着 把 它 用 起 来 ， 别 耽误 进度 了 。 












































































































































1.4 数据 清洗 环境 


本 书 中 涉及 的 数据 清洗 方法 是 通用 的 , 适用 范围 非常 广泛 。 你 不 需要 任何 高 端 专业 的 数据 库 
产品 或 是 数据 分 析 产 品 (事实 上 , 这 些 厂 商 和 产品 可 能 已 经 提供 了 数据 清洗 程序 或 是 解决 方法 )。 
我 围绕 数据 处 理 过 程 中 的 常见 问题 , 设计 了 本 书 中 的 清洗 教程 。 而 我 要 展示 的 都 是 适用 范围 较为 
广泛 的 开源 软件 和 技术 ， 它 们 很 容易 在 实际 工作 中 获得 和 掌握 。 

下 面 列 出 了 你 需要 准备 的 工具 和 技术 。 

口 几乎 在 每 一 章 中 , 我 们 都 会 用 到 终端 窗口 和 命令 行 界面 ， 比 如 Mac OSX 上 的 Terminal 程 序 

或 者 是 Linux 系 统 上 的 bash 程 序 。 而 在 Windows 上 ， 有 些 命令 可 以 通过 Windows 的 命令 提示 
符 运 行 ， 但 其 他 的 命令 则 需要 通过 功能 更 强 的 命令 行程 序 来 运行 ， 比 如 CygWin。 
口 几乎 在 每 一 章 中 , 我 们 还 会 用 到 文本 编辑 器 或 者 是 适合 程序 员 使 用 的 编辑 器 ,如 Mac 上 的 








































































































1.5 入 门 示例 5 








Text Wirangler，Linux 上 的 vi 或 emacs， 或 是 Windows 上 的 Notepad++ Sublime? 4H ds 5. 
a 在 绝 大 数 章节 里 ,我 们 需要 使 用 Python 2.7 版 本 的 客户 端 程序 ， 如 Enthought Canopy， 另 外 
还 需要 足够 的 权限 来 安装 一 些 包 文件 。 其 中 大 部 分 例子 都 可 以 直接 在 Python 3 中 运行 , 但 
有 些 不 可 以 ， 所 以 如 果 你 安装 的 是 Python 3 的 话 ， 可 以 考虑 再 安装 一 个 2.7 版 本 。 
D 在 第 3 章 “ 数 据 清洗 的 老 黄牛 一 一 电子 表格 和 文本 编辑 器 ”中 ， 我 们 需要 使 用 电子 表格 程 
序 (主要 是 Microsoft Excel 和 Google Spreadsheets )。 
口 在 第 7 章 “RDBMS 清 洗 技术 ”中 ， 我 们 需要 使 用 MySQL 数 据 库 和 一 个 用 于 访问 该 数据 库 
的 客户 端 软件 。 















































1.5. 入门 示例 


准备 好 了 吗 ? 现 在 让 我 们 磨 好 手 里 的 厨 刀 并 结合 六 步 框 架 来 解决 一 些 简 单 的 数据 清洗 问题 
吧 。 这 个 例子 会 用 到 对 公众 开放 的 安然 (Enron ) 公司 电子 邮件 数据 集 。 这 是 一 个 非常 有 名 的 数 
据 集 ， 当 中 所 有 的 往来 邮件 都 源 自 现 已 停业 的 安然 公司 前 雇员 。 作 为 美国 政府 调查 安然 公司 账目 
欺诈 的 一 部 分 ,雇员 之 间 的 邮件 已 被 公开 并 可 供 任 何人 下 载 , 来 自 各 个 领域 的 研究 人 员 已 经 发 现 ， 
这 些 邮 件 有 助 于 研究 商务 沟通 、 社 交 网 络 等 问题 。 



































; 你 可 以 在 维基 百科 http://en.wikipedia.org/wiki/Enron 上 阅读 更 多 关于 安然 公 
司 和 导致 它 破产 的 金融 丑闻 。 在 另外 一 个 页 面 http:/en.wikipedia.org/wiki/Enron _ 
Corpus Ł ， 你 可 以 阅读 关于 安然 公司 电子 邮件 语料库 的 信息 o 
在 这 个 例子 当中 , 我 们 会 采用 六 步 框架 来 解决 一 个 简单 的 数据 科学 问题 。 假 设 我 们 需要 揭露 
在 某 一 段 时 间 里 安然 公司 内 部 电子 邮件 的 使 用 趋势 和 特征 。 先 让 我 们 按照 日 期 来 对 安然 雇员 之 间 
的 往来 邮件 数量 做 个 统计 ， 然 后 再 通过 图 形 来 显示 统计 出 来 的 数据 。 


首先 ,我 们 需要 按照 http:/www.ahschulz.de/enron-email-data/ 上 面 的 指南 下 载 一 份 MySQL 版 本 
的 安然 公司 语料库 。 另 一 个 (备份 ) 源 的 地 址 是 https://www.cs.purdue.edu/homes/jpfeiff/enron.html。 
根据 指南 ， 我 们 需要 把 数据 导入 到 MySQL 服 务 器 中 一 个 称 为 Enron 的 数据 库 模式 中 。 导 入 之 后 的 
数据 可 以 通过 MySQL 命 令 行 界 面 或 是 基于 网 页 的 PHPMyAdmin 工 具 进 行 查询 。 


这 是 我 们 的 第 一 个 数据 统计 查询 ， 语 句 如 下 : 


SELECT date(date) AS dateSent, count (mid) AS numMsg 
FROM message 

GROUP BY dateSent 

ORDER BY dateSent; 


从 结果 中 我 们 马上 就 会 注意 到 , 许多 邮件 的 日 期 都 不 正确 。 比 如 , 很 多 日 期 要 么 早 于 或 晚 于 
公司 的 存续 期 ( 如 1979 ), 要 么 与 事实 逻辑 不 符 ( 如 0001 或 2044 )。 邮 件 虽 旧 , 但 也 不 至 于 那么 旧 ! 
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下 表 是 截取 出 来 的 一 部 分 数据 片段 ( 完整 的 结果 集 长 达 约 1300 行 )。 这 些 数 据 的 日 期 格式 都 
是 正确 的 。 但是， 有些 日 期 值 有 着 明显 的 错误 。 


dateSent numMsg 
0002-03-05 1 
0002-03-07 3 
0002-03-08 2 
0002-03-12 1 
1979-12-31 6 
1997-01-01 
1998-01-04 
1998-01-05 1 
1998-10-30 3 


这 些 错误 日 期 的 产生 很 有 可 能 是 由 邮件 客户 端 配 置 不 当 导 致 的 。 这 里 , 我 们 有 三 种 处 理 方案 
可 以 选择 。 


口 什么 都 不 处 理 : 也 许 ， 我 们 可 以 选择 忽略 这 些 错 误 数 据 ， 直 接 开始 构建 线性 图 。 但 是 ， 
最 小 的 错误 日 期 始 于 0001 年 ， 最 大 的 错误 日 期 至 2044 年 结束 ， 所 以 我 们 可 以 想象 ， 最 终 
的 线性 图 时 间 轴 上 将 有 1300 个 刻度 线 ， 每 个 刻度 上 面 显示 着 1 或 者 2。 光 是 听 起 来 就 没有 
什么 吸引 人 的 地 方 ， 也 没 提供 什么 有 用 的 信息 ， 所 以 不 处 理 就 等 同 于 数据 毫 无 用 处 。 
















































































口 修正 数据 : 我 们 可 以 尝试 算出 错误 消息 对 应 的 正确 日 期 ， 从 而 生成 正确 的 数据 集 来 创建 
图 形 。 

O 扔 掉 受 影响 的 邮件 : 我 们 可 以 做 出 一 个 明智 的 决定 ， 放 弃 那 些 日 期 不 在 预定 范围 之 内 的 
邮件 。 











为 了 在 选项 二 和 选项 三 之 间 做 个 决断 ， 我 们 需要 先 计算 一 下 1999~2002 年 有 和 多少 封 邮件 会 受 
到 影响 。 为 此 ， 我 们 编写 了 下 面 的 SQL 语句 : 
SELECT count (*) FROM message 


WHERE year(date) < 1998 or year(date) > 2002; 
Result: 325 


结果 显示 一 共有 325 封 邮件 包含 日 期 错误 ， 乍 一 看 确实 有 点 多 ， 但 请 等 一 让 ， 实 际 上 这 些 数 
据 只 是 占 了 全 部 数据 量 的 百 分 之 一 。 现 在 需要 好 好 其 酌 一 下 了 ,或许 我 们 可 以 手工 修复 这 些 日 期 ， 
但 也 可 以 假定 不 在 乎 这 百 分 之 一 的 损失 。 那 就 干脆 扔 掉 这 些 数 据 直接 选择 第 三 个 方案 吧 。 下 面 是 
调整 后 的 查询 语句 : 

SELECT date(date) AS dateSent, count (mid) AS numMsg 

FROM message 

WHERE year(date) BETWEEN 1998 AND 2002 


GROUP BY dateSent 
ORDER BY dateSent; 


数据 清洗 完成 之 后 一 共生 成 了 1211 条 结果 , 每 一 行 都 有 其 对 应 的 邮件 数量 。 下 面 的 内 容 截取 
自 新 的 数据 结果 集 : 
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dateSent 


numMsg 





1998-01-04 
1998-01-05 
1998-10-30 
1998-11-02 
1998-11-03 
1998-11-04 
I9S8-«11«05 
1998-ller3 





DPAAPPOPP 


在 新 的 数据 中 ，1998 年 1 月 的 两 个 日 期 看 起 来 有 些 问题 ， 因 为 其 他 邮件 都 始 于 10 月 ， 而 且 10 
月 之 后 的 邮件 数量 更 为 规律 一 些 。 这 很 奇怪 ， 同 时 也 反映 了 男 一 个 问题 ， 我 们 是 否 还 有 必要 在 x 
轴 上 标记 每 一 个 日 期 ， 即 使 这 一 天 一 封 邮件 都 没有 发 出 ? 

如 果 我 们 的 答案 是 肯定 的 话 ， 那 就 需要 显示 每 一 个 日 期 ， 即 使 它 对 应 的 邮件 数量 是 9。 这 意 
味 着 我 们 需要 再 做 一 轮 数 据 清洗 工作 ， 生 成 那些 没有 邮件 往来 的 日 期 所 对 应 的 数据 。 


但 是 请 等 一 下 ,对 于 这 个 问题 的 处 理 , 我 们 可 以 稍微 变通 一 下 。 是 不 是 真 的 要 在 原始 数据 中 











加 入 零 数据 ， 其 实 这 取决 于 我 们 用 什 











么 样 的 工具 来 创建 图 表 以 及 图 表 的 种 类 。 举 个 例子 来 说 ， 


Google 的 Spreadsheets 就 能 在 初始 数据 中 缺少 日 期 的 情况 下 ， 在 x 轴 上 自动 进行 零 值 数据 补 齐 ， 创 











建 线性 图 或 是 条 状 图 。 在 我 们 的 数据 中 ， 这 些 需 要 补 齐 的 零 值 就 是 1998 年 所 缺失 的 日 期 。 


下 面 的 三 幅 图 演示 了 这 些 工 具 所 呈现 的 结果 , 并 反映 出 它们 是 如 何 处 理 日 期 轴 上 的 零 值 数据 
的 。 请 注意 ，Google Spreadsheets 在 头 部 和 尾部 所 展现 的 长 长 的 零 值 数据 。 
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Google Spreadsheets 自 动 为 缺失 的 日 期 补 齐 零 值 数据 
D3 JavaScript 可 视 库 也 能 完成 同样 的 工作 ， 零 值 数 据 也 是 自动 补 齐 的 ， 如 下 图 所 示 。 

















8 第 1 章 为 什么 需要 清洗 数据 





关于 如 何 使 用 D3 完成 一 个 简单 的 线性 图 ， 请 参考 教程 : http://bl.ocks.org/ 
mbostock/3883245。 
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April July October 1999 April July October 2000 April July October2001 April July October 2002 April July October 
D3 自 动 为 缺失 的 日 期 补 齐 零 值 数据 
Excel 的 线性 图 也 有 同样 的 数据 补 齐 功 能 ， 如 下 所 示 。 
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Excel 自 动 为 缺失 的 日 期 补 齐 零 值 数据 


接 下 来 ， 我 们 需要 考虑 一 下 是 否 需要 零 值 数据 ， 要 不 要 让 它们 在 x 轴 上 显示 (数据 查询 结果 
总 数 为 1211， 而 在 指定 的 年 限 范围 ， 即 1998~2002 年 , 一 共有 1822 天 ), 或 许 显 示 零 值 日 期 并 不 会 





1.6 小结 9 





起 到 什么 作用 ; 此 外 ， 倘 若 图 表 过 于 拥挤 ， 有 些 较 小 的 空 辽 我 们 就 看 不 到 了 。 


为 了 比较 两 种 图 表 之 间 的 差别 ， 我 们 可 以 快速 地 把 相同 的 数据 再 次 放 入 Google Spreadsheets 
(你 也 可 以 在 Excel 或 D3 中 完成 这 个 任务 )， 但 这 次 我 们 只 需 选 择 数量 这 一 个 字段 来 构建 图 表 就 可 
以 了 ,这 样 一 来 ，Google Spreadsheets 就 不 会 在 x 轴 上 显示 日 期 了 。 最 后 生成 的 结果 图 表 中 只 包含 
数量 数据 ， 零 值 数据 不 会 被 填充 进来 。 长 长 的 尾巴 不 见 了 ， 图 表 中 各 个 重要 的 部 分 ( 中 间 部 分 ) 
也 都 被 保留 了 下 来 。 
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图 表现 在 只 显示 有 一 条 或 多 条 邮件 消息 的 记录 

值得 庆幸 的 是 ， 这 次 生成 的 图 表 与 之 前 的 相 比 还 是 很 像 的 ， 并 省 去 了 前 后 两 端 元 长 的 内 容 。 
根据 比较 结果 和 我 们 先前 的 计划 还 记得 我 们 要 做 的 只 是 创建 一 个 简单 的 条 形 图 吧 )， 现 在 终于 
可 以 继续 下 一 步 工 作 ， 不 用 烦恼 是 否 需要 创建 零 值 数据 了 。 


当 一 切 都 完成 之 后 , 最 终 的 条 形 图 会 为 我 们 显示 出 安然 公司 曾经 的 几 次 邮件 峰值 。 最 大 的 峰 
值 出 现在 2001 年 10 月 和 11 月 ， 恰 好 是 丑闻 被 揭露 的 时 候 。 还 有 两 次 较 小 一 点 的 峰值 发 生 在 2001 
年 6 月 26 日 和 27 日 ， 以 及 2000 年 12 月 12 日 和 13 日 ， 那 时 的 安然 也 有 新 闻 事件 发 生 ( 分别 是 加 利 福 
尼 亚 州 的 能 源 危机 事件 和 公司 领导 层 的 变动 )。 


如 果 数 据 分 析 已 经 让 你 开始 兴奋 的 话 , 那么 接 下 来 你 可 以 好 好 利用 这 些 数 据 来 发 挥 你 的 奇 思 
妙 想 。 愿 这 些 清洗 干净 的 数据 可 以 让 你 的 分 析 工 作 更 上 一 层 楼 ! 















































1.6 小结 


当 所 有 工作 全 都 做 完 的 时 候 ， 事实 印证 了 《纽约 时 报 》 的 报道 。 我们 从 这 个 简单 的 练习 中 可 
以 看 出 ， 即 便 是 回答 一 个 小 小 的 数据 问题 ,数据 清洗 就 占 了 整个 过 程 80% 的 工作 量 ( 在 这 个 全 文 
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共计 900 个 单词 的 案例 中 ， 光 是 谈论 数据 清洗 的 基本 原理 和 方案 就 用 了 700 个 单词 ) "。 数 据 清洗 
的 的 确 确 是 数据 科学 过 程 的 关键 部 分 , 它 不 仅 涉及 对 技术 问题 的 理解 , 同时 还 要 求 我 们 做 出 相应 
的 价值 判断 。 作 为 数据 清洗 工作 的 一 部 分 ， 我 们 甚至 需要 在 尚未 完成 分 析 与 可 视 化 步 又 的 时 候 ， 
预先 考虑 它们 的 输出 结果 将 是 什么 样子 。 


重新 审视 数据 清洗 在 这 一 章 的 工作 中 所 扮演 的 角色 , 我 们 很 容易 发 现 , 清洗 效果 的 提升 能 够 
大 幅 减 少 后 续 处 理 的 时 间 。 

在 接 下 来 的 一 章 里 , 我们 将 学 习 一 些 与 数据 有 关 的 基础 知识 , 这 是 每 一 个 “数据 主 厨 ”在 进 
入 既 宽 敞 又 明亮 的 大 “厨房 ”之 前 需要 掌握 的 ， 内 容 包括 文件 格式 、 数 据 类 型 和 字符 编码 。 





















































这 里 指 的 是 英文 原版 字数 统计 。 一 一 译 者 注 


o 
[jr 








基础 知识 一 一 格式 、 
类 型 与 编码 








几 年 前 , 在 一 次 家 庭 的 节日 聚会 上 ,我 收 到 了 一 件 非 常 有 趣 的 礼物 。 那 是 一 个 冷 餐 厨 房 专用 
的 工具 箱 ， 里 面 有 各 种 不 同 用 途 的 工具 ， 切 刀 、 去 皮 器 、 勺 子 、 果 皮 刊 刀 等 一 应 俱全 。 使 用 一 段 
时 间 之 后 ， 我 慢 慢 地 学 会 了 每 一 种 工具 的 使 用 方法 ， 并 自 创 了 一 套 刨 丝 刀 和 番茄 刀 的 使 用 穿 门 。 
所 以 ， 我 在 这 一 章 也 为 你 准备 了 一 套 适用 于 数据 清洗 的 入 门 工 具 。 我 们 要 学 习 的 内 容 有 : 

口 文件 格式 ， 包 括 压缩 标准 
口 数据 类 型 的 基础 知识 (包括 多 种 用 于 表示 缺失 数据 的 类 型 ) 
O 字符 编码 


这 些 基 础 知识 都 是 我 们 需要 掌握 的 , 因为 后 续 章 节 里 的 内 容 都 建立 在 这 些 基 础 知识 之 上 。 其 
中 有 一 些 特别 基础 的 概念 ,你 几乎 天 天 都 能 磁 上 ， 比 如 文件 压缩 和 文件 格式 。 它 们 就 像 大 厨 们 用 
的 普通 刀具 那样 司空 见 惯 。 不 过 还 是 有 一 些 专 业 性 和 目的 性 都 比较 强 的 概念 ， 比 如 字符 编码 ， 丝 
E Ail 6 T 0871 ! 

































































2.1 文件 格式 


在 这 一 节 中 ， 我 们 将 描述 数据 科学 家 们 在 处 理 实际 数据 时 常常 会 遇 到 的 五 花 八 门 的 文件 格 
X, 换 句 话 来 讲 , 这 些 数据 在 许多 书 的 示例 数据 集中 都 很 难 找到 ， 因 为 书 里 的 数据 格式 都 是 经 过 
精心 整理 而 编排 出 来 的 。 在 这 里 , 我 特意 设计 了 一 些 场景 来 帮助 你 理解 每 一 种 文件 格式 的 应 对 策 
略 以 及 它们 的 局 限 性 ， 并 在 之 后 讨论 多 种 不 同 的 文件 压缩 格式 和 文件 归档 格式 。 











2.1.1 文本 文件 与 二 进 制 文件 
从 网 络 上 收集 数据 的 时 候 ， 你 可 能 遇 到 过 下 面 几 种 情况 。 
口 数据 可 以 以 文件 形式 进行 下 载 。 
a 数据 可 以 通过 存储 系统 的 交互 式 界面 进行 访问 ， 比 如 利用 查询 接口 来 访问 数据 库 系统 。 
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口 数据 可 以 通过 持续 不 断 的 流 的 形式 进行 访问 。 
a 数据 可 以 通过 应 用 编程 接口 (API ) 来 访问 。 

但 无 论 在 哪 种 情况 下 , 要 想 把 这 些 数 据 分 享 给 其 他 人 , 我 们 都 需要 亲自 动手 创建 自己 的 数据 
文件 。 因 此 ， 牢 牢 地 掌握 好 各 种 数据 文件 格式 并 熟知 它们 的 优 缺 点 是 至 关 重 要 的 。 


首先 , 让 我 们 考虑 一 下 计算 机 系统 中 广义 存在 的 两 种 文件 类 型 , 也 就 是 人 们 常常 提起 的 文本 
文件 和 二 进 制 文件 。 由 于 所 有 的 文件 都 是 由 一 系列 字 节 一 个 挨 着 一 个 紧密 排列 组 合 而 成 的 ,所 以 ， 
严格 地 说 ， 所 有 文件 都 是 二 进 制 的 。 但 是 ， 如 果 文 件 中 的 字 节 都 以 纯粹 的 字符 形式 保存 ( 例如 字 
母 、 数 字 ， 或 是 换行 、 回 车 、 制 表 符 这 样 的 控制 字符 )， 那 么 我 们 就 可 以 说 这 个 文件 是 文本 格式 
的 。 相 比 之 下 ， 二 进 制 文件 包含 的 字 节 则 是 由 大 部 分 非 人 类 可 读 的 字符 组 成 的 。 

1. 文件 的 打开 与 读 取 

文本 文件 可 以 通过 一 种 称 为 文本 编辑 器 的 程序 读 取 和 写 人 。 如 果 你 尝试 着 在 文本 编辑 器 中 打 
开 一 个 文件 ， 并 成 功 读 取 了 里 面 的 内 容 (即便 你 不 太 理 解 里 面 的 内 容 )， 那 么 这 个 文件 很 可 能 就 
是 一 个 文本 文件 。 但 是 ,如 果 你 在 文本 编辑 器 打开 一 个 文件 ,内容 看 起 来 全 是 乱七八糟 的 字符 和 
奇怪 的 非法 字符 ， 那 么 它 可 能 就 是 一 个 二 进 制 文件 。 

二 进 制 文件 只 能 通过 特殊 的 应 用 程序 打开 或 编辑 , 而 不 是 文本 编辑 器 。 例 如, Microsoft Excel 
文件 需要 使 用 Microsoft Excel 电 子 表格 程序 才能 打开 和 读 取 ， 数 码 相 机 拍摄 的 照片 文件 需要 使 用 
图 形 程序 来 读 取 ， 如 Photoshop 或 Preview 等 。 有 些 时 候 ， 二 进 制 文件 也 可 以 被 多 个 兼容 的 软件 包 
读 取 ， 比 如 许多 不 同 的 图 形 程序 都 能 读 取 和 编辑 照片 文件 。 另 外 还 有 一 些 二 进 制 文件 ,它们 虽然 
是 某 些 程序 的 专属 格式 , 但 也 可 以 通过 别 的 兼容 软件 打开 ， 以 Microsoft Excel 或 Microsoft Word 文 
件 为 例 ， 它 们 就 可 以 通过 Apache 的 OpenOffice 打 开 。 除 此 以 外 ， 还 有 一 些 二 进 制 编辑 器 ， 通 过 它 
们 你 可 以 探访 三 进 制 文件 的 内 部 并 对 其 进行 深度 编辑 。 

在 某 些 情况 下 ,文本 文件 既 可 以 供应 用 程序 读 取 ， 同 时 也 可 以 由 文本 编辑 器 来 读 取 。 举 例 来 
说 , 网 页 和 计算 机 的 程序 源 代码 本 身 都 是 纯 文 本 字符 ,我 们 很 容易 在 文本 编辑 器 里 编辑 它们 ,不 
过 这 要 求 你 已 经 掌握 了 格式 、 布 局 和 语义 相关 的 知识 ， 否 则 其 中 的 内 容 是 很 难 理解 的 。 

其 实 大 多 数 时 候 , 想 要 知道 一 个 文件 的 类 型 是 不 需要 打开 文件 的 。 举 例 来 说 ， 人 们 在 查找 文 
件 的 时 候 一 般 都 是 从 文件 名 开始 。 由 三 个 字母 和 四 个 字母 组 成 的 文件 扩展 名 就 是 一 种 表明 文件 类 
型 的 常见 方式 。 我 们 经 常见 到 的 文件 扩展 名 有 : 

口 以 .xlsx 为 扩展 名 的 Excel 文 件 、 以 .docx 为 扩展 名 的 Word 文 件 、 以 .pptx 为 扩展 名 的 Powerpoint 
文件 ; 

O 以 .png、.jpg 和 .gif 为 扩展 名 的 图 形 文 件 ; 

OQ 以 .mp3、.ogg、.wmv 和 .mp4 为 扩展 名 的 音乐 和 视频 文件 ; 

口 以 .txt 为 扩展 名 的 文本 文件 。 


在 互联 网 上 , 有 的 网 站 列 出 了 常见 文件 扩展 名 以 及 与 之 有 关 的 应 用 程序 , 其 中 比较 有 名 的 是 
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fileinfo.com。 另 外 在 维基 百科 上 还 有 文件 扩展 名 的 字母 列表 ， 其 访问 地 址 为 https:/en.wikipedia. 


org/wiki/List of filename extensions (alphabetical); 
2. 深入 文件 内 部 


如 果 你 迫切 希望 打开 一 个 未 知 的 文件 , 对 其 内 容 一 探究 竟 的 话 , 那么 我 在 这 里 准备 了 几 个 命 
令 行 工具 供 你 使 用 ， 利 用 它们 你 可 以 看 到 文件 开头 的 一 些 字 节 。 


(1) 在 OS X 或 Linux 中 






























































在 Mac OS X 或 者 是 Linux 系 统 上 ， 打 开 终 端 窗口 (在 Mac 上 ， 你 可 以 通过 Applications | Utilitiies | 
Terminal 找 到 标准 的 终端 应 用 程序 )， 使 用 工作 目录 打印 命令 (pwa) 和 目录 切换 命令 (ca) 进入 
文件 的 所 在 位 置 ， 然 后 使 用 less 命 令 逐 页 查看 文件 的 内 容 。 下 面 是 我 完成 这 个 任务 所 使 用 过 的 


命令 : 



































flossmole2:- megan$ pwd 

/Users/megan 

flossmole2:- megan$ cd Downloads 

flossmole2:Downloads megan$ less OlympicAthletes 0.xlsx 
"OlympicAthletes 0.xlsx" may be a binary file. See it anyway? 


如 果 程 序 提 示 你 “view anyway” 的 话 ， 那 么 这 个 文件 就 是 一 个 二 进 制 文件 ， 你 应 该 做 好 看 
到 杂乱 字符 的 心理 准备 。 你 可 以 通过 键盘 输入 字母 y 继 续 查 看 该 文件 , 也 可 以 输入 字母 n 拒 绝 继续 
查看 。 下 图 是 用 less 命 令 查看 文件 OlympicAthletes_0.xlsx 的 结果 。 结 果 果 然 是 一 团 糟 吧 ! 







































































PKa Tea DS a n'a dE ra wa OA AEA LEM [Content Types] .xml | 
cacacacacacaca caca caca MA CM C aa C a CA C aa C a C aa A C aa C a CA ACA CA CA CA CA CA “ee “ee ‘eee 
Kacacacacacaca caca C Aa C A C A A C A C Aa C C A CA CACAC eee “eae CA CA CA CA ‘eee 
(CICC a C aaa C a C a C a C aa C aa C aa C aa C a C aa C aa C a C aa C a C aa C aa C a CA CACA CA ACA CA ACA CA ACA CA CA C AC C C CC 
(CIC A C a C aa C a C a C aa caca caca CMM C a C aa C a C C Aa C a C A C ACA C a C Aa C A C HC A C A C AC A C C ‘eee CIC RC ACIC 
(CUC C C aa C C C aa C a C A C Aa C C HC A C C Aa C C A C Aa C C A C Aa “eee “ee C NC C C RC CIRC 
G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G^G 
cacacacacscacaca caca C A C A cA C a C Aa C C A C Aa C C A C Aa CA CACACA ACA eee “ee ee “eee 
(CHC a C a C aa C a C a C aa caca ca CAM CA C a C aa C a C a C aa C a C a C aa C a C aa C a ACA C a C A C A C C A C A C C NC CCC ACIC 
(CIC A C C aa C a C A C aa Aca C aa C A C A A C A C Aa C A C A C Ha C a C A C ACA CACACA AC A C C “ee C C C CRC RC ACIC 
(CICC a C a C aa C a C aa C aa C aa C a C a C a CACACA C aa C aa C aa C aa C a CA CACA CA CACA CA ACA CA ACA CA CA C C R “ee 人 
G^G^G^G^G^G^G^G^ cACACACM CM CA CACA G^G^G^G^G^G ~G^G^G^G^G^G^`G^G^G^G^G^G^“G<AC><94> 册 | 
(OE 直人 HE 84><9A> -05> [^ G]<F6><A4><B1><EA><U+0616><C7> 

B-ED-«ED»«99»[T1-A2»-A8»^D[-E9- Ri T«CD» «FF»^?99» BE» «ED» «93» [W] ^e» MJ] E3>[lkC4>^R 
ETE) MWO EY Ed ES, oh (STN a ue vede a E yi EET &Tmlge 
8C»«FE»«81»5«94»2]]^ BE«E7» «C12 «U«0085» MI FA-^LÉI«EE» «85» 8B» ^U« F0» «DB» «D1»«E8» 
8E» T«U--0618»«C6»242«83» 1M -^F-^ TI E« C9» 1484» F8 Ee F2-- E124 C3» 5-495 «FB ^ i 
A4» o EEEE SH TI«82»[gg3«91»1«U-0588» «DD» «D42 3 
FC»i [8-8 C» [l^ C58» 

H^Q«A1»«B0»^D«88»«95»«C9»fA«F 3» 1^ TijIs[y«F 2» «B4» 4^ Kd FE Md 

»$I-8r»R^N«FD»«EC»«FA»«99»[|«BA» «B0» «FE» TREES 9D»«AC»^R«DA»^^-9r»B^B-9A»- DER: 
8F»«9C»I£::^QG«D4» «C8»^U«A8»1 E3484» «A8» «A1» [d d^ V«BO» «EE» «BD»^YZ«F2»«E6»5I^K«8F», 
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查看 完 文件 内 容 之 后 ， 你 可 以 输入 字母 ds 月 出 less 程 序 。 

(2) 在 Windows 中 

在 Windows 的 命令 提示 符 里 有 一 个 对 应 的 more 程 序 。 操 作 方 法 与 之 前 介绍 过 的 less 命 令 类 
似 (这 正 应 了 那 句 俗语 less is more )。 你 可 以 从 Windows 7 的 开始 菜单 中 运行 cmd 命 令 打 开 命 
令 提 示 符 程序 。 而 在 Windows 8 中 ,， 则 需要 通过 “应 用 程序 | Windows 系 统 | 命令 提示 符 ”"。 当 然 ， 
我 们 还 是 要 像 前 一 个 例子 那样 使 用 ca 和 pwq 找 到 目标 文件 。 
































2.4. ”常见 的 文本 文件 格式 


在 本 书 中 ， 我 们 最 为 关心 的 是 文本 文件 ， 而 非 二 进 制 文件 。( 但 压缩 文件 和 归档 文件 这 样 的 
情况 除外 , 这 些 文件 会 在 下 一 节 讨论 , 至 于 Exce] 文 件 和 PDF 文件 会 在 本 书后 面 的 章节 里 分 别 





本 书 所 关注 的 文本 文件 类 型 主要 有 三 种 : 


口 分 隔 格式 〈 结构 化 数据 ) 
a JSON 格 式 〈 半 结构 化 数据 ) 
口 HTML 格 式 ( 非 结构 化 数据 ) 


这 些 文件 有 着 各 自 不 同 的 布局 格式 ( 主要 是 在 文件 读 取 的 时 候 内 容 的 表现 形式 不 同 )， 结 构 


化 程度 也 有 差异 。 换言之 , 就 是 每 种 文件 的 内 容 有 多 大 比例 是 以 结构 化 形式 进行 数据 组 织 的 ? 又 
有 多 少数 据 是 无 规则 的 或 无 结构 的 ? 在 此 ， 我 们 会 分 别 讨论 每 种 文件 格式 。 





























2.1.3 分隔 格式 


分 隔 文 件 在 数据 分 享 和 传输 中 使 用 得 非常 广泛 。 分 隔 文件 就 是 文本 格式 文件 , 数据 属性 ( 列 ) 
和 数据 实例 ( 行 ) 由 统一 的 符号 分 隔 。 我 们 把 分 隔 用 的 字符 称 为 分 隔 符 。 最 为 常见 的 分 隔 符 是 制 
表 符 和 逗号 。 这 两 种 方案 分 别 出 现 在 制 表 符 分 隔 值 (TSV) 和 过 号 分 隔 值 (CSV) 中 。 有 时 候 ， 
分 隔 文件 也 被 称 为 记录 式 文件 ， 因 为 文件 中 的 每 一 行 都 代表 了 一 条 记录 。 


下 面 的 示例 中 列举 了 三 条 记录 ( 这 三 行 记录 描述 了 三 个 人 的 信息 )， 每 条 记录 的 值 都 采用 去 
号 分 隔 。 第 一 行列 出 了 各 个 字段 的 名 字 。 第 一 行 也 被 称 为 标题 行 , 并 高 亮 显 示 , 请 见 下 面 的 内 容 : 
































First name,birth date,favorite color 
Sally,1970-09-09,blue 
Manu,1984-11-03,red 
Martin,1978-12-10,yellow 


请 注意 例子 中 的 分 隔 数据 , 它们 不 包含 任何 非 数 据 信息 。 其 中 的 内 容 要 么 代表 完整 的 一 条 行 数 
据 , 要 么 代表 着 独立 的 字段 数据 。 这 些 数据 的 结构 化 程度 非常 高 。 但 这 并 不 妨碍 我 们 从 分 隔 格式 中 
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辨识 出 不 同 的 数据 。 最 为 明 




















显 的 区 分 点 就 是 每 个 数据 实例 ( 每 一 行 ) 彼此 之 间 都 是 分 离 的 。 通 常 在 


























一 行 的 末端 会 出 现 换行 符 或 回 车 符 , 或 者 是 两 者 同时 出 现 ， 这 取决 于 文件 创建 时 的 操作 系统 环境 。 


1. 查看 不 可 见 字 符 


在 前 面 的 例子 中 ,换行 符 和 回 车 符 都 是 看 不 见 的 。 怎 么 才能 看 到 不 可 见 字符 嘱 ? 我 们 将 在 ER 





Mac 系 统 中 使 用 Text Wrangler ( 这 类 似 于 Windows 上 的 Notepad++ ) 重新 读 取 例子 中 的 文件 ， 并 通 
过 Show invisibles 的 功能 ( 可 以 通过 View | Text Display 激 活 ) 来 查看 不 可 见 字 符 。 























AUN H 


First:name,birth:date,favorite:color- 
Sally,1970-09-09,blue- 

Manu, 1984-11-03, red- 
Martin,1978-12-10, yellow- 











此 外 ， 还 有 一 种 可 以 查看 不 可 见 字符 的 方法 ， 那 就 是 在 Linux 系 统 或 Mac 上 的 Terminal 窗 口中 
使 用 vi (一 种 命令 行文 本 编辑 右 ) 工具 。 使 用 vi 查看 文件 里 不 可 见 字 符 的 过 程 如 下 。 


(1) 首先 ， 输 入 下 面 的 命 


vi «filename» 

















命令 : 


(2) 然后 输入 :进入 vi 的 命令 模式 。 











(3) 接 下 来 输入 set 1list 并 按 回 车 键 , 这 时 就 能 看 到 不 可 见 字 符 了 。 

















下 面 的 截图 演示 的 是 通过 set 1ist 命 令 在 vi 里 显示 行 尾 字符 ， 其 对 应 符号 为 $。 





First name,birth date,favorite color$ 
Sally, 1970-09-09, blue$ 
Manu, 1984-11-03, red$ 
Martin, 1978-12-10, yellow$ 


~ 


人 


‘set list 
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2. 封闭 错误 数据 

在 分 隅 文件 中 , 除了 分 隔 符 外 , 另 一 个 重要 的 选项 是 用 什么 字符 来 封 财 分 陋 数 据 。 举 个 例子 
来 说 ,逗号 分 隔 符 对 一 般 值 都 有 效 ,， 但 碰 到 含有 逗号 作为 千 位 分 隔 符 的 数值 时 就 束手无策 了 。 请 
看 下 面 的 数据 , 最 后 一 个 字段 工资 所 对 应 的 数据 就 含有 千 位 分 隔 符 ,而 这 个 符号 同时 还 肩负 着 数 
据 分 隔 的 作用 : 

First name,birth date,favorite color,salary 

Sally,1971-09-16,1ight blue,129,000 


Manu,1984-11-03,red,159,960 
Martin,1978-12-10,yel110w,76,888 


如 何在 创建 文件 时 搞定 这 个 问题 呢 ? 其 实 ， 有 两 种 方案 。 
口 方案 一 : 分 隔 文件 创建 者 需要 在 整个 数据 表 创 建 之 前 ， 删 除 最 后 一 列 中 的 逗号 (也 就 是 
说 工资 中 不 可 以 包含 逗号 字符 )。 
口 方案 二 : 分 隔 文件 创建 者 需要 使 用 额外 的 符号 来 对 数据 进行 封闭 处 理 。 

如 果 选 择 了 第 二 种 处 理 方案 , 通常 的 做 法 是 采用 双 引 号 来 对 数据 进行 封闭 。 这 样 一 来 ,第 一 
行 未 端 出 现 的 129, 000 就 会 被 改 成 "129,000"。 












































3. 字符 转 义 


如 果 数 据 本 身 就 含有 引号 , 这 种 情况 该 如 何 应 对 呢 ? 比如 在 下 面 的 数据 中 , Sally 喜欢 的 颜色 
jK PÉ light "Carolina" blue， 该 怎么 解决 呢 ? 


First name,birth date,favorite color,salary 
"Sally","1971-09-16","light "Carolina" blue","129,000" 
"Manu","1984-11-03","redà","159,960" 
"Martin","1978-12-10","yellow","76,888" 


每 当 这 个 时 候 , 就 需要 使 用 男 外 一 个 特殊 字符 来 对 数据 内 部 使 用 的 引号 进行 转 义 ,而 转 义 字 
符 就 是 反 斜 线 \: 


First name,birth date,favorite color,salary 
"Sally","1971-09-16","light wN"CarolinaN" blue","129,000" 
"Manu","1984-11-03","redà","159,960" 
"Martin","1978-12-10","yellow","76,888" 





A 也 许 你 会 想到 改 用 单 引 号 来 替代 双 引 号 作为 封闭 符号 ,但 这 种 方法 又 有 可 能 
Q 碰 上 所 有 格 “it's”， 或 是 人 名 O'Malley 这 样 类 似 的 问题 。 总 之 ， 问 题 总 是 会 存在 
的 。 


分 隔 文件 使 用 起 来 非常 方便 ， 因 为 它们 的 格式 很 容易 理解 ,访问 起 来 也 很 方便 ， 一 个 普通 的 
文本 编辑 器 就 能 搞定 它 。 但 是 ,为 免 磁 到 类 似 上 面 介绍 的 那些 情况 ， 就 得 事先 做 好 一 番 规 划 ， 以 
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确保 数据 能 够 被 正确 无 误 地 分 隔 。 


如 果 在 工作 过 程 中 ， 你 碰巧 发 现在 你 接收 的 数据 中 含有 分 隔 错误 ， 那 么 你 可 以 参考 第 3 章 中 
所 教授 的 技巧 来 清洗 这 些 数据 。 


4. JSON 格 式 


























JSON ( JavaScript Object Notation )， 发 音 为 JAYsahn， 是 时 下 最 为 流行 的 数据 格式 之 一 ， 这 
种 格式 的 数据 有 时 也 被 称 为 半 结 构 化 数据 。JSON 的 名 字 虽 然 包 含 JavaScript 字 样 ， 但 它 并 非 只 限 
于 在 JavaScript 中 使 用 。 名 字 只 是 陈述 了 该 类 型 被 设计 用 于 序列 化 JavaScript 对 象 这 个 事实 而 已 。 


半 结 构 化 数据 集 的 特点 是 数据 的 值 都 有 其 对 应 的 属性 标识 , 而 且 顺 序 无 关 紧 要 ,有 时 甚至 可 
以 缺失 某 些 属性 。JSON 就 是 这 样 以 属性 - 值 为 基础 的 数据 集 ， 示 例如 下 : 

{ 

"firstName": "Sally", 

"birthDate": "1971-09-16", 
"faveColor": "light\"Carolina\" blue", 
"salary":129000 

} 

属性 被 放 在 冒号 的 左边 , 值 被 放 在 冒号 的 右边 。 每 个 属性 之 间 都 采用 到 号 进行 分 隔 。 整 个 实 
体 使 用 花 括 号 进行 封闭 处 理 。 

JSON 在 有 些 方面 与 分 隔 文件 类 似 ， 但 也 有 不 同 的 地 方 。 首 先 ， 字 符 串 值 必须 使 用 双 引 号 进 
行 封闭 处 理 , 因此 , 字符 串 内 部 的 双 引号 也 都 必须 用 反 和 斜 线 进 行 转 义 。( 转 义 字符 也 是 \， 如 果 这 
个 字符 被 当 作 数据 内 容 使 用 ， 它 本 身 也 必须 被 转 义 ! ) 

在 JSON 中 ， 逗 号 不 可 以 出 现在 数字 类 型 的 数据 中 ， 除 非 这 个 值 被 当 作 字符 串 使 用 并 用 引号 
封闭 。( 在 对 数字 进行 字符 化 处 理 时 一 定 要 小 心 一 一 你 确定 要 这 样 做 , 是 吧 ? 如 果 你 已 经 决定 了 ， 
请 参考 2.3.1 节 ， 其 中 的 内 容 有 助 于 你 解决 相关 的 问题 。) 


{ 
















































































"firstName": "Sally", 

"birthDate": "1971-09-16", 
"faveColor": "light\"Carolina\" blue", 
"salary": "129,000" 


) 

JSON 还 支持 多 值 属性 和 多 层级 结构 ( 这 两 种 功能 在 分 隔 文 件 中 实现 起 来 比较 困难 )。 请 看 下 
面 的 JSON 文 件 ， 它 含有 一 个 多 值 属性 的 pet 字 段 ， 还 有 一 个 带 有 层级 结构 的 jobTitle 字 段 。 这 
里 需要 注意 的 是 ， 之 前 的 salary 字 段 已 经 被 转移 到 新 的 job 字段 里 了 : 

{ 






































"firstName": "Sally", 
"birthDate": "1971-09-16", 
"faveColor": "light\"Carolina\" blue", 


"pet": 
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"type": "dog", 
"name": "Fido" 
} ， 
( 
"type": "dog", 
"name": "Lucky" 
j 
e 
"job": ( 
"jobTitle": "Data Scientist", 
"company": "Data Wizards, Inc.", 


"salary":129000 
j 
} 


e JSON 实 验 


JSON 作 为 数据 交换 格式 极为 流行 ， 这 是 因为 它 扩展 性 好 ， 容 易 使 用 ， 并 支持 多 值 属性 、 
可 缺失 属性 、 般 套 属性 /层级 属性 。 各 种 分 布 式 数据 集 所 采用 的 API 也 对 JSON 的 发 展 有 着 极 大 的 


贡献 。 


接 下 来 让 我 们 用 iTunes API 做 个 实验 ， 看 看 如 何 利 用 搜索 关键 词 来 生成 JSON 数 据 结果 集 。 
iTunes 是 由 Apple 公 司 提供 的 一 个 音乐 服务 。 任 何人 都 可 以 利用 iTunes 服 务 来 查找 歌曲 、 艺 术 家 和 
专辑 。 在 查找 的 时 候 我 们 需要 把 搜索 关键 词 添加 到 iTunes API URL 的 后 面 : 
























































https://itunes.apple.com/search?term-the-growlers 


在 这 个 URL 中 ，= 后 面 的 内 容 就 是 搜索 关键 词 。 我 搜索 的 是 我 比较 喜欢 的 一 个 乐队 ， 名 为 
Growlers。 这 里 需要 注意 的 是 ，URL 中 含有 一 个 用 来 代替 空格 字符 的 + ， 因 为 URL 是 不 允许 包含 
空格 字符 的 。 


iTunes API 会 根据 我 提供 的 关键 词 从 它 的 音乐 数据 库 里 返回 50 个 结果 。 整 个 结果 集会 被 格式 
化 成 一 个 JSON 对 象 。 结 果 集中 的 每 一 个 元 素 都 是 以 名 字 - 值 格式 存在 的 JSON 对 象 。 这 个 例子 返 
回 的 JSON 数 据 貌 似 很 长 ， 因 为 结果 记录 有 50 个 之 多 ,但 实际 上 每 个 结果 都 特别 简单 一 一 因为 在 
这 个 URL 中 展现 出 来 的 iTunes 数 据 没有 复杂 的 多 值 数 据 和 层级 数据 。 






































关于 iTunes API 更 多 的 使 用 细节 ， 请 访问 Apple iTunes 的 开发 文档 : 
https://www.apple.com/itunes/affiliates/resources/documentation/itunes-store-web- 


service-search-api.html 


5. HTML 格 式 
HTML 文 件 ， 或 称 为 网 页 文件 ， 也 是 一 种 文本 格式 文件 ， 其 中 经 常 夹杂 着 各 种 匈 余 的 数据 。 
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其 实 大 部 分 人 都 可 能 有 过 这 样 的 经 历 , 在 浏览 网 站 时 发 现 一 些 内 容 
们 “ 据 为 已 有 ”"。 有 时 只 需 通 过 简单 地 复 和 

















Lr 
I- FH 


的 表格 或 是 列表 , 想 把 它 


出 粘贴 便 可 以 从 网 页 中 创建 我 们 想 要 的 数据 分 隔 文件 ， 


但 大 多 数 时 候 复制 粘贴 是 不 起 作用 的 。 因 为 许多 HTML 文 件 内 容 都 混乱 无 比 , 所 以 抽取 数据 的 过 





程 也 是 苗 不 堪 言 。 所 以 有 时 我 们 会 说 ， 网 页 文件 是 无 结构 的 数据 文件 。 
标签 对 其 数据 进行 整理 , 但 实际 上 并 不 是 所 有 的 网 页 内 容 都 是 这 样 组 织 的 。 男 外 ,很 多 HTML 标 


签 的 使 用 也 极其 不 规范 ,甚至 是 充满 了 各 种 错误 ， 这 种 现象 不 单单 体现 在 不 同 网 站 之 间 ， 即便 是 





同一 家 网 站 也 有 类 似 的 情况 发 生 。 


下 面 的 截图 是 http:/weathercom 网 站 的 一 部 分 。 尽 管 其 中 的 内 容 包括 了 图 片 、 色 彩 和 其 他 非 
文本 内 容 ,但 说 到 底 ， 这 个 网 站 店内 容 还 是 使 用 HTML 编写 的 ， 只 要 我 们 想 要 从 页 面 中 提取 文本 


数据 ， 就 一 定 能 


虽然 HTML 源 代码 接近 1000 行 


做 得 到 。 





虽然 网 页 可 以 通过 HTML 
































Right Now 
Lowi ugh - 


43" 
FEELS LIKE 43" 
Sunny 
Past 24-hr Precip: 
0 in 
Wind: 
Calm 


Humidity 


26% 


UV Index 
1- Low 


Next 6 Hours: 

Clear with temperatures 
falling into the low 30s. 
Winds light and variable. 
Hourly Details 


Pressure 
30.35 in + 
Dew Point: & 
10* 


Visibility: 
10.0 mi 


Earlier Today 


43 


T" 


Tonight 


28' 


HIGH AT 1:25 PM LOW 


Sunny 


Sun & Moon 
Sunrise: 


6:54 am 


Sunset: 


5:10 pm 


Mostly Clear 


Chance of Precip 


4 0% 


Wind: 
反 SSE at 3 mph 


Humidity 


6196 


Tonight: 

Clear to partly cloudy. 
Low 28F. Winds light 
and variable. 


Moonrise: 
12:17 am 
Moonset: 
1:20 pm 


Moonphase: 


@ Waning 
Crescent 








气 表格 的 数据 和 布局 指令 : 


， 但 只 要 我 们 足够 细心 ， 完 全 可 以 从 中 找 出 让 浏览 器 呈现 出 天 
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806 | <div class="wx-temperature-label">FEELS LIKE 

807 <span itemprop="feels-like-temperature-fahrenheit">43</span>&deg; </div> 
808 | </div> 

809 | «div class="wx-data-part"> 

810 | <div class="wx-temperature">43<span class="wx-degrees">&deg;</span></div> 
811 <div class="wx-temperature-label">HIGH AT 1:25 PM</div> 

812| </div> 

813| «div class="wx-data-part"> 

814| «div class="wx-temperature">28<span class="wx-degrees">&deg;</span></div> 
815| «div class="wx-temperature-label">LOW</div> 

816 | </div> 


AAIE, BALAENA! 是 的 ， 从 技术 上 讲 , 我 们 的 确 可 以 从 这 个 页 面 抽取 数据 43( 华 
氏 温 度 )， 但 这 个 过 程 并 不 容易 ， 因 为 我 们 没 法 保证 今天 使 用 的 方法 可 以 适用 于 明天 的 情况 ,或 
是 后 天 的 情况 ， 因 为 http://weather.com 网 站 可 以 随时 改变 它 的 源 代码 。 除 此 之 外 ， 页 面 上 还 混 困 
着 许多 其 他 数据 ， 所 以 我 们 将 会 在 第 $ 章 讨论 如 何 从 基于 网 页 的 非 结 构 化 文件 中 抽取 数据 。 














2.2 ”归档 与 压缩 


在 什么 情况 下 , 一 个 文件 既是 文本 文件 , 同时 也 是 二 进 制 文件 呢 ? 当然 是 压缩 或 归档 的 时 候 
了 。 那 到 底 什么 是 压缩 和 归档 呢 ? 在 这 一 节 中 , 我 们 就 学 习 一 下 文件 的 压缩 和 归档 , 并 了 解 一 下 
它们 的 工作 原理 和 各 自 对 应 的 不 同 标准 。 


这 一 广 的 内 容 是 很 重要 的 ,因为 现实 中 的 许多 数据 ( 特别 是 分 隔 数据 ) 都 是 以 压缩 文件 的 形 


式 存在 的 。 数 据 科 学 家 最 常用 的 数据 压缩 格式 都 有 哪些 ”在 这 里 我 们 会 找到 想 要 的 答案 。 你 也 许 
还 琢磨 着 怎么 把 文件 压缩 完 再 分 享 给 别人 。 该 怎么 评 佑 哪 种 压缩 方法 是 最 佳 选择 呢 ? 































































































2.2.1 ”归档 文件 


归档 文件 就 是 一 个 内 部 包含 了 许多 文件 的 独立 文件 。 这 种 文件 的 内 部 可 以 包含 文本 文件 或 二 
进 制 文件 , 或 者 是 两 者 的 混合 。 归 档 文 件 是 使 用 一 个 特殊 程序 将 给 定 的 文件 列表 转换 成 一 个 文件 
而 制 成 的 。 当 然 ， 归 档 文件 也 可 以 通过 反 向 操作 被 转换 成 多 个 文件 。 








tar 

在 做 数据 科学 工作 时 ， 你 碰 到 最 多 的 归档 文件 可 能 就 是 磁带 归档 (TAR ) 文件 了 。 这 种 文件 
是 通常 是 用 tar 程 序 创建 的 ， 并 以 .tar 为 后 缀 名 。 它 的 最 初 设计 目的 是 用 于 磁带 归档 技术 。 

ta 程序 在 类 Unix 操 作 系统 中 都 存在 ， 所 以 我 们 也 可 以 在 Mac OS X 的 Terminal 程 序 中 使 用 它 。 


要 想 创 建 tar 文 件 , 你 需要 给 tar 程 序 下 达 几 个 指令 , 让 程序 知道 哪些 文件 是 你 想 要 包含 的 , für 
出 的 文件 名 字 又 是 什么 。( 程序 中 的 选项 c 用 来 表明 我 们 想 创建 一 个 归档 文件 ， 选 项 v 可 以 让 程序 
在 加 载 文件 列表 的 时 候 打 印 出 文件 名 字 ， 选 项 f 用 于 指定 输出 文件 的 名 字 。 ) 
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tar cvf fileArchive.tar reallyBigFile.csv anotherBigFile.csv 




















如 果 想 要 “untar” 一 个 文件 ( 也 就 是 把 归档 文件 展开 ， 提 取出 里 面 的 文件 )， 你 只 需要 让 tar 
程序 指向 你 想 要 展开 的 文件 即 可 。 其 中 xvf 中 的 字母 x 表示 提取 (eXtract ) 的 意思 : 





























tar xvf fileArchive.tar 


现在 我 们 已 经 知道 一 个 .tar 格 式 的 归档 文件 里 面 含有 多 个 文件 ， 但 到 底 有 和 多少 文件 ， 它 们 又 
都 是 什么 样 的 文件 呢 ? 在 提取 文件 之 前 , 你 可 能 想 要 先 掌 握 一 些 基本 信息 ， 比 如 即将 被 提取 的 文 
件 是 我 们 想 要 的 吗 ? 是 否 还 有 足够 的 磁盘 空间 来 存放 提取 出 来 的 文件 ? 这 时 tar 命 令 中 的 选项 + 就 
可 以 派 上 用 场 了 ， 它 会 以 列表 形式 显示 tar 文 件 中 的 内 容 : 
































tar -tf fileArchive.tar 


除了 tar 以 外 还 有 许多 别 的 归档 程序 ， 当 中 包括 一 些 具备 压缩 功能 的 程序 ( 比如 ，OS XE 
上 内 置 的 ZIP 压 缩 软件 和 Windows 上 的 各 种 ZIP 和 RAR 工具 )， 它 们 在 做 归档 的 同时 还 能 进行 文件 
压缩 处 理 ， 接 下 来 我 们 就 来 看 看 压缩 的 概念 。 











2.2.2 ”压缩 文件 


压缩 文件 的 作用 就 是 缩减 原始 文件 的 大 小 , 使 得 它们 占用 较 少 的 存储 空间 。 文 件 变 小 意味 着 
占用 的 磁盘 空间 更 少 , 在 网 络 间 共 享 传输 会 更 快 。 而 在 数据 文件 处 理 方面 ,我 们 关注 的 重点 就 是 
如 何 轻松 地 进行 数据 文件 压缩 ， 并 把 压缩 文件 重新 还 原 成 原始 文件 。 


1. 如 何 压 缩 文件 


创建 压缩 文件 的 方法 有 许多 , 选择 哪 种 取决 于 你 所 使 用 的 操作 系统 和 你 安装 的 压缩 软件 。 比 
如 在 OS X 上 ， 从 Finder 程 序 中 随便 选中 哪个 文件 或 文件 夹 ( 或 组 )， 然 后 点 击 鼠 标 右键 ,再 从 菜 
单 中 选择 Compress。 操 作 完 成 后 就 会 在 被 压缩 文件 所 在 的 相同 目录 下 出 现 一 个 压缩 文件 ( .zip 后 
级 名 )。 操 作 截 图 如 下 所 示 。 












































Open in New Tab 
Move to Trash 


Get Info 
Burn “EIES_data” to Disc... 
Duplicate 

Make Alias 

Quick Look *EIES data" 

Share » 
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2. 如 何 解压 文件 
在 数据 科学 过 程 中 的 数据 收集 步骤 里 , 经 常会 处 理 那 些 下 载 下 来 的 压缩 文件 。 这 些 文件 有 可 














能 是 文本 分 隔 文件 ， 比 如 像 本 章 前 面 描述 的 那样 ， 也 有 可 能 是 其 他 类 型 的 数据 文件 ， 比 如 构建 数 
据 库 用 的 电子 表格 或 SQL 命令 。 








但 无 论 是 哪 一 种 情况 ,在 压缩 文件 解压 之 后 ,我 们 都 能 得 到 相应 的 数据 文件 ,并 利用 它们 完 











成 目标 任务 。 那 怎么 才能 知道 应 该 使 用 哪 一 个 程序 来 解压 文件 呢 ? 这 当中 最 重要 的 线索 就 是 文件 
扩展 名 。 根 据 这 个 信息 , 我 们 可 以 得 知 文件 是 由 哪 种 压缩 程序 创建 的 , 进而 得 知 文件 的 解压 办 法 。 


文件 扩展 名 关联 的 程序 了 。 之 后 可 以 使 用 Open With 选 项 来 查看 Windows 会 使 用 哪 种 程序 来 解压 
文件 o 























在 Windows 系 统 上 ， 你 可 以 在 文件 上 点 击 鼠 标 右键 ， 选 择 Properties， 这 时 你 就 可 以 看 到 与 














在 这 一 节 后 面 的 内 容 里 ， 我 们 会 继续 学 习 如 何在 OS X 或 Linux 操 作 系统 上 使 用 命令 行程 序 来 





解压 文件 。 


(1) 使 用 zip、gzip 和 bzip2 压 缩 文件 


zip. 、gzip 和 bzip2 是 最 为 常见 的 压缩 程序 。 与 之 对 应 的 解压 缩 程 序 分 别 为 Unzip 、Gunzip 和 








Bunzip2。 


下 表 中 列举 了 每 种 程序 以 及 它们 对 应 的 压缩 和 解压 缩 命令 。 





E ñ E m 
Zip zip filename.csv filename.zip unzip filename.zip 
gzip gzip filename.csv filename.gz gunzip filename.gz 
bzip2 bzip2 filename.csv filename.bz2 bunzip2 filename .bz2 





有 时 你 会 发 现 ， 有 的 文件 在 包含 .tar 后 级 名 的 同时 还 包含 了 .gz 或 .bz2 这 样 的 后 级 名 ,例如 


somefile.tar.gz。 其 他 类 似 的 情形 还 有 .tgz 和 .tbz2 等 , 例如 somefile.tgz。 这些 文件 一 般 都 是 先 经 过 tar 


程 


2 


已 














序 的 归档 处 理 ， 之 后 又 被 gzip 和 bzip2 程 序 进行 压缩 。 这 是 因为 gzip 和 bzip2 本 身 没 有 归档 功能 ， 
们 只 是 压缩 程序 而 已 。 因 此 ， 它 们 只 能 一 次 压缩 一 个 文件 〈 或 一 个 归档 文件 )。 而 tar 的 工作 才 




















AE 


进 


的 











把 多 个 文件 整合 到 一 个 独立 的 文件 中 ， 所 以 我 们 常常 会 发 现 这 些 工具 总 是 一 起 使 用 。 


其 实 tar 程 序 还 有 个 内 置 的 功能 选项 , 可 以 让 我 们 在 文件 归档 之 后 立即 使 用 gzip 或 bzip2 对 文件 
行 压 缩 处 理 。 要 想 压 缩 一 个 新 创建 的 .tar 文 件 ， 可 以 在 tar 命 令 的 后 面 添 加 一 个 z 选 项 ， 并 修改 它 
文件 名 : 











tar cvzf fileArchive.tar.gz reallyBigFile.csv anotherBigFile.csv 


或 者 ， 你 可 以 分 两 个 步骤 来 完成 这 个 任务 : 
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tar cvf fileArchive.tar reallyBigFile.csv anotherBigFile.csv 
gzip fileArchive.tar 


这 两 种 操作 都 可 以 创建 文件 fileArchive.tar.gz。 
如 果 想 要 解压 一 个 tar.gz 文 件 ， 可 以 使 用 下 面 两 个 命令 : 








gunzip fileArchive.tar.gz 
tar xvf fileArchive.tar 


类 似 的 操作 也 适用 于 bzip2 文 件 : 
tar cvjf fileArchive.tar.bz2 reallyBigFile.csv anotherBigFile.csv 


如 果 想 要 解压 一 个 tarbz2 文 件 ， 可 以 使 用 下 面 两 个 命令 : 





bunzip2 fileArchive.tar.bz 
tar xvf fileArchive.tar 


(2) 压缩 选项 
在 做 压缩 和 解压 处 理 时 ， 你 应 该 考虑 如 何 使 用 更 多 的 功能 选项 来 更 好 地 完成 清洗 工作 。 


O 你 是 否 需要 在 压缩 文件 的 时 候 保留 原始 文件 ”默认 情况 下 ， 大 部 分 压缩 程序 和 归档 程序 
都 会 删除 原始 文件 。 如 果 你 想 在 创建 压缩 文件 的 同时 保留 原始 文件 ， 通 常 需要 手动 添加 
这 个 选项 。 

D 你 想 把 新 的 文件 添加 到 一 个 已 经 存在 的 压缩 文件 里 吗 ? 大 多 数 归 档 程 序 和 压缩 程序 都 有 

这 样 的 功能 选项 。 有 时 候 ， 这 种 操作 被 称 为 更 新 或 替换 。 

O 你 是 否 需要 对 压缩 文件 进行 加 密 处 理 ， 只 有 提供 密码 才能 打开 ?其 实 许多 压缩 程序 都 带 

有 这 个 功能 。 

O 在 解压 的 时 候 , 是 否 需要 履 盖 目 录 下 同名 的 文件 呢 ? 找 找 有 没有 force 这 样 的 功能 选项 吧 。 

不 同 的 压缩 软件 有 不 同 的 功能 选项 , 你 可 以 根据 需要 使 用 这 些 选 项 来 轻松 地 完成 文件 处 理工 

作 。 这 在 处 理 大 量 文件 的 时 候 尤 为 重要 ， 可 能 是 文件 的 体积 大 ， 也 可 能 是 数量 大 。 


3. 如 何 选择 压缩 程序 


这 里 所 讲 的 归档 与 压缩 的 概念 广泛 适用 于 各 种 操作 系统 和 各 种 类 型 的 压缩 文件 。 在 大 多 数 情 
况 下 ， 我 们 都 是 从 不 同 的 地 方 下 载 压缩 文件 ， 随 后 最 为 关心 的 是 如 何 高 效 地 解压 这 些 文件 。 


但 是 , 假设 你 需要 自己 一 个 人 来 完成 压缩 文件 的 创建 , 这 时 你 应 该 怎么 做 ? 比如 你 需要 解压 
数据 文件 ， 清洗 文件 中 的 数据 ， 然 后 重新 对 文件 进行 压缩 处 理 并 把 它 转 给 你 的 同事 ,这 种 情况 下 
你 该 怎么 处 理 每 一 个 细节 ?” 又 或 者 是 你 要 下 载 一 些 文件 ， 而 每 个 文件 都 提供 了 不 同 的 压缩 格式 : 
zip 、bz2 或 gz， 哪 种 格式 才 是 最 佳 选 择 呢 ? 
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假设 我 们 处 在 一 个 可 以 使 用 多 种 文件 压缩 格式 的 操作 环境 中 , 这 时 可 以 采用 下 面 的 原则 来 比 
较 不 同 压 缩 类 型 之 间 的 优 缺 点 。 
其 中 能 够 影响 我 们 选择 压缩 方式 的 关键 因素 有 : 


口 压缩 和 解压 缩 的 速度 
口 压缩 比率 〈 文 件 到 底 能 缩减 多 少 ) 
O 压缩 方案 的 互 操作 性 〈 文 件 容易 解压 吗 ) 




















e 经 验 之 谈 


gzip 压 缩 和 解压 缩 都 比较 快 ， 并 且 在 每 个 装 有 0OS X 或 Linux 的 机 器 上 都 可 以 使 用 。 但 是 ,在 
Windows 系 统 上 的 一 些 用 户 是 没有 对 应 的 gunzip 程 序 的 。 


bzip2 压 缩 的 文件 比 gzip 和 zip 都 要 小 ， 但 压缩 花费 的 时 间 也 相对 长 一 些 。 它 广泛 存在 于 OS X 
和 Linux 系 统 中 。 而 Windows 用 户 就 比较 痛苦 了 ， 除 非 他 们 装 了 能 够 应 对 bzip2 格 式 的 特殊 软件 。 


zipfELinux, OS X 和 Windows 系 统 上 都 存在 ， 而 且 它 的 压缩 和 解压 速度 也 不 赖 。 但 是 压缩 比 
率 不 怎么 高 ( 其 他 压缩 程序 能 让 文件 变 得 更 小 ), 即便 如 此 , 它 的 普遍 性 和 较 快 速度 ( 比如 跟 bzip2 
相 比 ) 还 是 相当 有 优势 的 。 


RAR 是 Windows 上 广泛 使 用 的 归档 和 压缩 解决 方案 ; 但 是 在 OS X 和 Linux 系 统 上 只 有 特殊 的 
软件 才能 处 理 这 种 格式 ， 而 且 它 的 压缩 速度 也 不 像 其 他 方案 那样 理想 。 

最 后 要 说 的 是 ,你 得 根据 项 目的 具体 情况 ,以 及 受众 或 用 户 (可 能 是 你 本 人 、 消 费 者 或 者 是 
客户 ) 的 需求 ， 来 决定 压缩 方案 。 
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这 一 节 我 们 将 了 解 一 下 最 常见 的 数据 类 型 , 这 些 类 型 及 其 变 体 类 型 都 是 数据 科学 家 们 在 日 常 
工作 中 需要 频繁 处 理 的 。 此 外 , 我 们 还 会 讨论 如 何在 数据 类 型 之 间 进 行 安 全 且 无 信息 损耗 〈 或 是 
至 少 要 事先 了 解 风险 程度 ) 的 转换 。 


同时 这 一 节 探 索 空 数据 、 空 值 和 空白 字符 的 神秘 世界 ,学 习 各 种 不 同 的 数据 缺失 情况 , 看 看 
数据 缺失 会 对 数据 分 析 结果 有 哪些 负面 影响 。 还 将 比较 和 权衡 数据 缺失 的 处 理 方案 以 及 它们 各 自 
的 优 缺 点 。 


由 于 在 实际 存储 中 很 多 数据 都 是 以 字符 串 形式 保存 的 ， 所 以 我 们 还 要 学 习 如 何 辨 识字 符 纺 
码 ， 以 及 真实 数据 中 一 些 常见 的 格式 。 我们 还 会 学 习 如 何 识 别 字符 编码 问题 ， 以 及 如 何 为 某 个 特 
定 的 数据 集 设置 与 其 相 匹配 的 字符 编码 。 此 外 还 会 以 Python 代码 为 例 ， 演 示 把 数据 从 一 种 编码 转 
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成 男 一 种 编码 的 过 程 ， 并 会 讨论 这 种 策略 的 局 限 性 。 


2.3.1 数据 类 型 


无 论 要 清洗 的 数据 是 以 文本 文件 形式 存储 , 还 是 在 数据 库 系统 中 存储 , 或 是 以 其 他 格式 存储 ， 
我 们 慢 慢 都 会 发 现 一 个 现象 ， 那 就 是 相同 类 型 的 数据 看 起 来 总 是 一 样 的 : 数字 、 日 期 、 时 间 、 字 
符 、 字 符 串 ， 等 等 。 在 这 一 他 中 我 们 就 要 探讨 一 些 最 为 常见 的 数据 类 型 以 及 与 相关 的 一 些 例子 。 


1. 数字 类 型 数据 

在 这 一 部 分 中 , 我 们 会 展示 多 种 用 于 数字 存储 的 方式 和 方法 , 其 中 的 一 些 方法 会 让 清洗 和 管 
理工 作 变 得 更 加 容易 。 与 字符 串 和 日 期 类 型 相 比 ， 数 字 类 型 更 为 直观 ， 所 以 我 们 先 从 这 个 类 型 开 
启 旅程 ， 之 后 再 学 习 更 为 复杂 的 类 型 。 


(1) 整数 


整数 ,可 以 是 正 数 或 者 是 负数 。 从 整数 的 名 字 上 可 以 看 出 ,这 种 数字 是 没有 小 数 点 和 小 数 部 
分 的 。 在 不 同 的 存储 系统 中 ， 比 如 在 数据 库 管 理 系统 (DBMS) Æ, 我 们 可 以 对 整数 进行 更 多 的 
设置 ， 比 如 整数 的 范围 是 多 少 ,， 是 允许 有 符号 值 ( 正 数 或 负数 ) 还 是 只 允许 有 无 符号 值 ( 全 部 正 
数值 )。 


Q) 小 数 


在 数据 清洗 工作 中 ,含有 小 数 部 分 的 数字 ， 比 如 价格 、 平 均值 、 尺 寸 等 ,通常 都 采用 小 数 点 
形式 ( 而 不 是 分 子 /分 母 ) 来 表现 。 有 了 时候， 个 别 的 存储 系统 还 会 提供 一 些 数字 设置 规则 ， 包 括 
允许 小 数 点 后 面 有 多 少 个 数字 ( 小 数 部 分 的 长 度 )， 人 允许 包含 的 数字 总 个 数 ( 精度 )。 例 如 数字 
34.984， 它 的 小 数 部 分 长 度 为 3， 精 度 为 5。 


不 同 的 数据 存储 系统 允许 使 用 不 同类 型 的 小 数 。 例 如 ，DBMS 可 以 让 我 们 在 搭建 数据 库 的 
时 候 自行 决定 数据 存放 形式 ， 如 浮 点 数 、 小 数 、 货 币 。 每 种 类 型 之 间 都 稍 有 差别 ， 比 如 在 数学 
含义 上 的 区 别 。 我 们 需要 阅读 DBMS 所 提供 的 相关 指南 来 掌握 好 每 种 数据 类 型 ， 从 而 可 以 始终 
在 数据 变化 时 占据 主动 地 位 。DBMS 供 应 商 常会 出 于 内 存 原因 或 其 他 原因 多 次 修改 某 些 数据 类 
型 的 规范 。 


而 在 另 一 个 方面 ,与 存储 数据 的 DBMS 系 统 不 一 样 的 是 ,电子 表格 应 用 程序 除了 具有 存储 数 
据 的 能 力 之 外 , 它 还 能 显示 数据 。 因 此 ,在 实际 使 用 中 我 们 可 以 用 某 一 种 数字 类 型 的 形式 存储 数 
据 ,， 而 以 男 外 一 种 类 型 的 形式 来 显示 它 。 但 这 种 格式 化 方法 有 时 也 会 引起 一 些 歧义 。 下 图 是 一 个 
显示 小 数 的 例子 。 公 式 栏 里 显示 的 完整 数字 是 34.984， 但 实际 上 单元 格 显 示 的 是 经 过 四 舍 五 信之 
后 的 数字 。 
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+| 6 € (* fx| 34.984 
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在 世界 上 的 很 多 地 区 , ANAE OR Z- F8 cC 89 ] ICE fe AE CHR, 而 

M 不 是 我 们 习惯 使 用 的 圆 点 或 英文 句号 。 所 以, 花 点 时 间 搞 清楚 操作 系统 的 区 域 设 
Q 置 是 很 值得 的 ， 这 可 以 确保 数据 能 够 像 我 们 预期 的 那样 显示 。 比 如 在 OS XP, 

菜单 System Preferences 里 有 一 个 称 为 Language & Region 的 对 话 框 在 这 里 你 可 以 


根据 需要 修改 区 域 设 置 。 

















与 DBMS 不 同 的 是 , 纯 文本 文件 没有 可 以 用 来 规范 数字 精度 的 选项 。 文 本 文件 也 不 同 于 电子 


表格 ,数据 显示 上 也 没什么 额外 的 设置 选项 。 如 果 文 本 文件 里 显示 的 数值 为 34.98， 那 么 这 就 是 


全 部 的 数字 信息 了 。 
(3) 什么 时 候 数 字 不 是 数字 类 


数字 类 型 的 数据 最 重要 的 特点 就 是 由 
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一 系列 0~9 之 间 的 数字 组 成 , 有 时 候 也 会 包含 小 数 部 分 。 

















但 真正 的 数字 类 型 数据 还 有 一 个 关键 的 特性 ， 就 是 能 够 满足 其 最 初 的 设计 目的 ， 参 与 数学 计算 。 

















所 以 ， 当 希望 能 用 数据 进行 数学 计算 , 或 是 以 数字 形式 进行 比较 ， 又 或 者 按 数 值 顺 序 存储 项 目的 


时 候 ， 就 应 该 选择 数字 类 型 作为 数据 的 存 
以 数字 类 型 存储 。 请 看 下 面 的 数字 列表 ， 


Dl 
D10 
口 11 
口 123 
口 243 
DQ 1016 




















D 1 Elm Lane 
O 10 Pine Cir. 

O 1016 Pine Cir. 
O 11 Front St. 
0 123 Main St. 
DD 245 Oak Ave. 








渚 方式 。 每 当 遇 到 与 此 类 似 的 情况 ,请 务必 确保 数据 都 
其 中 数字 都 是 按照 从 小 到 大 的 顺序 排列 的 : 








现在 ， 再 看 一 个 地 址 列表 ， 字 段 中 的 数据 都 是 以 字符 串 类 型 存储 的 : 
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电话 号 码 和 邮政 编码 ( 还 有 上 面 例子 里 的 门牌 号 码 ) 通常 都 是 以 数字 形式 存储 的 , 但 是 当 我 
们 考虑 把 它们 保存 下 来 的 时 候 , 应 该 是 用 文本 形式 还 是 数字 形式 呢 ” 先 试问 一 下 我 们 是 否 计划 拿 
这 些 数据 进行 加 减法 操作 , 或 是 求 平均 值 ， 又 或 是 求 标准 差 ? 如 果 没 有 这 些 打算 的 话 , 那 以 文本 
形式 保存 更 为 妥 帖 。 


2. 日 期 和 时 间 ER 


你 可 能 对 同一 个 日 期 的 很 多 不 同 写法 都 很 熟悉 , 而 且 有 自己 比较 喜欢 的 写法 。 比 如 下 面 列表 
中 的 每 一 个 小 项 ， 它 们 都 是 同一 个 日 期 的 常见 写法 : 













































































口 11-23-14 

口 11-23-2014 

口 23-11-2014 

口 2014-11-23 

口 23-Nov-14 

口 November 23, 2014 
口 23 November 2014 
口 Nov. 23, 2014 


无 论 我 们 喜欢 使 用 哪 种 日 期 书写 格式 ,一 个 完整 的 日 期 都 是 由 三 部 分 组 成 : 年 , 月 , Heo f£ 
何 日 期 数据 都 应 该 能 够 解析 出 这 几 个 部 分 。 日 期 中 有 和 争议 的 部 分 一 般 有 两 处 ; 一 处 是 缺少 日 期 记 
号 和 月 份 记号 并 且 数 字 小 于 12， 男 一 处 则 是 年 份 信息 的 表现 。 例 如 ， 如 果 只 看 到 “11-23” 的 话 ， 
我 们 会 推算 出 日 期 为 11 月 23 日 ， 因 为 月 份 不 可 能 是 23， 那 年 份 信息 哪里 去 了 ? 但 是 ， 如 果 我 们 看 
到 的 是 “11-12”， 这 回 是 11 月 12 日 ， 还 是 12 月 11 日 呢 ? 同样 的 问题 ， 年 份 信息 哪里 去 了 ? 假如 给 
出 了 年 份 信息 ， 其 值 为 38， 那 么 它 代 表 的 是 1938 年 还 是 2038 呢 ? 


大 多 数 的 DBMS 都 有 一 套 专属 的 方法 来 导入 日 期 格式 的 数据 , 并 且 能 够 使 用 同样 的 方法 以 日 
期 格式 导出 数据 。 男 外 ,这 些 系 统 还 同时 提供 了 很 多 函数 ,利用 这 些 函 数 可 以 对 日 期 数据 进行 重 
新 格式 化 处 理 ， 或 是 提取 日 期 中 某 一 部 分 的 数据 。 以 MySQL 数 据 库 为 例 ， 它 就 有 许多 这 样 的 日 
期 函数 , 通过 这 些 函 数 可 以 提取 日 期 中 的 月 份 信息 或 是 日 期 信息 ; 当然 , 还 有 一 些 更 为 复杂 的 函 
数 , 通过 它们 我 们 可 以 找 出 一 个 日 期 处 于 一 年 中 的 第 几 个 星期 , 或 是 找 出 一 个 日 期 处 于 一 个 星期 
中 的 第 几 天 。 请 看 下 面 的 例子 ， 我 们 利用 第 1 章 中 提 到 的 Enron 数 据 集 ， 使 用 SQL 查询 语句 来 计算 
在 每 年 的 5 月 12 日 有 多 少 封 邮件 被 发 出 ， 同 时 打印 出 相应 的 星期 值 : 






























































































































































SELECT YEAR(date) AS yr, DAYOFWEEK(date) AS day, COUNT (mid) 
FROM message WHERE MONTHNAME(date) - "May" AND DAY(date) - 12 
GROUP BY yr, day 

ORDER BY yr ASC; 


有 些 电子 表格 程序 ， 如 Excel， 在 内 部 以 数字 形式 存储 日 期 ， 但 它 人 允许 用 户 以 他 们 喜欢 的 内 
置 格式 或 自 定义 格式 来 显示 这 些 值 。Excel 用 小 数 来 保存 自 1899 年 12 月 31 日 之 后 的 日 期 数据 。 想 
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B 





要 看 到 Excel 中 日 期 的 内 部 表现 ， 可 以 输入 一 个 日 期 数据 ， 并 以 General 格 式 进 行 查 看 ， 如 下 图 所 
示 。Excel 将 1986 年 5 月 21 日 存储 为 31553。 














5/21/1986 
Lo B Format Cells 
21-May-86] 
22-May-86 | | Number | Alignment Font Border Fill ^ Protection 
Category: Sample 
FTTUENN | 059 
1 | Number 
I Currency General format cells have no specific number format. 
Accounting 
1 Date 














所 以 ， 当 你 在 不 同 的 格式 之 间 来 回转 换 的 时 候 ， 从 和 斜 线 到 中 横 线 ， 或 是 互 换 月 份 和 日 期 的 顺 
序 ，Excel 只 是 为 你 提供 了 不 同 的 外 部 表现 ， 但 在 底层 的 内 部 实现 上 ， 日 期 的 值 是 从 来 都 没有 发 
生 过 变化 的 。 


那 Excel 为 什么 保留 小 数 部 分 来 存储 1899 年 之 后 的 日 期 呢 ? 难道 天 数 不 是 完整 的 数字 吗 ? 其 
实 ，Excel 存 储 的 小 数 部 分 值 是 用 来 表现 时 间 部 分 的 。 






































E 
formatted as a date and time formatted as 'general' 
5/21/86 12:00 AM 31553 
5/21/86 12:00 PM 31553.5 
5/21/86 6:00 PM 31553.75 











从 前 面 的 示例 截图 中 可 以 看 出 ， 日 期 的 内 部 值 31553 被 映射 到 午夜 ， 而 31553.5 ( 半天 时 间 ) 
是 中 午 ，31553.75 是 下 午 六 点 。 小 数 点 后 面 的 精度 越 高 ， 我 们 得 到 的 内 部 表现 就 越 精 准 。 


但 是 并 非 所 有 的 数据 存储 系统 都 使 用 小 数 来 存储 日 期 和 时 间 , 因为 它们 采用 的 起 点 标准 可 能 
不 同 。 有 些 系统 以 数字 形式 记录 自 Unix 时 间 〈 国际 标准 时 间 1970 年 1 月 1 日 0 时 0 分 0 秒 ) 开始 后 所 
经 过 的 秒 数 ， 以 此 来 存储 日 期 和 时 间 ， 如 果 是 负数 ， 则 表示 Unix 时 间 开 始 之 前 的 时 间 。 

DBMS 和 电子 表格 应 用 程序 都 支持 与 数字 类 似 的 日 期 计算 。 在 这 两 种 系统 中 ， 都 有 支持 加 减 
法 以 及 其 他 日 期 计算 的 函数 ， 比 如 往 一 个 日 期 中 添加 几 个 星期 得 到 一 个 新 的 日 期 值 。 

3. 字符 串 

字符 串 代 表 了 一 组 连续 的 字符 数据 ， 其 中 包括 常见 的 字母 、 数 字 、 空 格 和 标点 符号 ， 还 有 来 
自 千 百 种 自然 语言 中 的 字符 和 用 于 不 同 目的 的 特殊 符号 。 字 符 串 非常 灵活 ， 这 一 点 使 得 它们 成 为 
最 为 常见 的 数据 存储 方式 。 此 外 ， 由 于 字符 串 几 乎 能 够 存储 任何 其 他 类 型 的 数据 (不计 效率 )， 
它 已 成 为 数据 通信 或 系统 间 数 据 移植 的 最 廉价 选择 。 
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与 数字 类 型 数据 一 样 ， 我 们 所 使 用 的 存储 机 制 也 提供 了 一 些 关于 字符 串 的 使 用 规则 。 例 如 ， 
DBMS 或 是 电子 表格 需要 我 们 事先 声明 要 使 用 的 字符 串 长 度 为 多 少 ， 或 是 要 使 用 哪 种 类 型 的 字 
符 。 还 有 一 个 重要 的 概念 ， 那 就 是 字符 编码 ， 在 本 章 的 后 面 我 们 单独 拿 出 一 节 来 对 它 进 行 说 明 。 

另外 , 在 具体 的 使 用 环境 中 我 们 还 需要 注意 数据 的 长 度 限 制 。 在 日 常 使 用 的 数据 库 中 , 通常 
有 固定 长 度 和 可 变 长 度 两 种 字符 串 类 型 ,它们 一 般 被 设计 用 来 存放 较 短 的 字符 串 数据 , 所 以 有 的 
DBMS 提 供 商 还 额外 设计 了 一 种 文本 类 型 ， 专 门 用 来 存放 较 长 的 字符 串 数 据 。 






































一 般 情况 下 , 许多 数据 科学 家 会 扩大 这 个 术语 的 范围 。 因 为 字符 囊 类 型 的 数 
S 据 可 能 会 变 得 越 来 越 大 ， 毫 无 边际 ， 所 以 它们 往往 会 发 展 成 文本 类 型 的 数据 ， 对 
它们 的 分 析 也 就 变 成 文本 分 析 或 文本 挖 握 。 


字符 串 (或 文本 ) 类 型 的 数据 可 以 在 之 前 谈论 过 的 所 有 文件 格式 (分隔 文 件 、JSON 或 网 页 ) 
中 找到 ， 这 些 格式 能 够 以 字符 串 形 式 存储 数据 ， 或 是 为 多 种 存储 方案 ( 比如 前 面 提 到 过 的 API、 
DBMS 、 电 子 表 格 和 纯 文 本 文件 ) 提供 数据 。 但 不 管 采用 哪 种 存储 与 传递 机 制 ， 在 大 数据 、 乱 数 
据 、 无 结构 数据 的 处 理 过 程 中 , 字符 串 类 型 的 数据 可 以 算是 当之无愧 的 主角 。 如 果 只 是 解析 区 区 
几 百 个 街道 地 址 或 是 对 几 千 本 书 的 标题 进行 分 类 ， 对 Exce] 高 手 来 说 简直 毫 无 压力 。 同 样 ， 如 果 
让 统计 工作 者 或 程序 员 从 一 个 单词 列表 中 找 出 字符 出 现 的 频 度 ,他 们 也 绝 不 会 犹豫 。 不 过 ,如 果 
把 字符 串 操作 的 问题 提升 到 “从 九 千 万 条 用 俄语 书写 的 电子 邮件 消息 中 抽取 艇 套 在 里 面 的 程序 源 
代码 ”， 或 是 “计算 stack Overflow 网 站 上 全 部 内 容 中 的 词汇 多 样 性 ”， 事 情 可 就 复杂 啦 。 


4. 其 他 数据 类 型 


数字 、 日 期 /时 间 和 字符 串 是 使 用 最 为 广泛 的 三 种 数据 类 型 ， 但 除 此 之 外 ， 还 有 许多 其 他 来 
源 于 不 同 环境 的 数据 类 型 。 请 看 下 面 的 例子 。 


a 集合 / 枚 举 : 如 果 你 的 数据 只 有 几 种 值 ， 你 可 能 就 需要 集合 类 型 或 者 枚 举 类 型 了 。 比 如 大 
学 课程 的 期 末 成 绩 就 是 由 这 样 的 枚 举 类 型 数据 组 成 的 : {A, A-, B+, B, B-, C+, C, C-, D+, D, 
D-, F, Wi. 

口 布尔 : 如 果 你 的 数据 只 限于 两 种 值 ， 要 么 是 0/1 形 式 ， 要 么 是 true/false 形 式 ， 这 时 你 可 以 
考虑 一 下 布尔 类 型 。 比 如 数据 库 字 段 package_shipped 的 值 可 能 为 “是 ”和 “ 否 ”， 这 
dont XO lp Ir. 

O Blob ( 二进制 大 对 象 ): 如 果 你 的 数据 是 二 进 制 的 ， 例 如 你 想 要 以 字 节 形式 存储 图 片 ( 并 
非 图 片 链接 )， 或 是 存储 MP3 音 乐 文件 ， 这 时 你 就 可 以 考虑 使 用 二 级 制 大 对 象 类 型 。 
















































































































































































2.3.2 ”数据 类 型 间 的 相互 转换 
数据 类 型 间 的 相互 转换 是 数据 清洗 工作 必 不 可 少 的 一 部 分 。 每 当 需 要 在 字符 串 类 型 的 数据 上 
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做 一 些 数学 运算 处 理 时 , 我 们 往往 希望 能 够 以 数字 类 型 来 重新 存储 这 些 数据 。 又 或 者 是 碰 到 字符 
串 形 式 的 日 期 数据 , 我 们 和 希望 改变 它们 的 日 期 表现 格式 。 但 在 正式 学 习 数据 类 型 转换 之 前 , 我 们 
先 讨 论 一 个 有 关 转 换 的 潜在 问题 。 


数据 损耗 


从 一 种 数据 类 型 转换 到 另 一 种 数据 类 型 的 过 程 中 ， 有 时 我 们 会 面临 着 数据 损耗 这 样 的 境况 。 
通常 , 在 目标 数据 类 型 无 法 保存 与 原始 数据 类 型 同样 多 的 信息 时 ,损耗 就 会 发 生 。 其 实数 据 损耗 
并 不 会 一 直 困 扰 我 们 (事实 上 ， 有 些 时 候 清 洗 过 程 是 允许 数据 损耗 存在 的 )， 但 如 果 我 们 并 不 希 
望 有 数据 损耗 发 生 的 话 ， 这 一 现象 就 不 容 忽 视 了 。 其 中 包含 的 风险 因素 包括 如 下 两 个 。 


a 同 种 类 型 间 的 不 同 范围 转换 : 假设 你 有 个 字符 串 类 型 的 字段 ， 其 长 度 为 200 个 字符 ， 现 在 
你 想 把 数据 转 到 一 个 只 能 容纳 100 个 字符 的 字段 上 。 只 要 是 超过 100 个 字符 的 数据 都 会 被 
丢弃 或 截取 。 这 种 情况 也 会 发 生 在 不 同 范围 的 数字 类 型 字段 上 ， 例 如 从 长 整数 类 型 向 一 
般 长 度 的 整数 类 型 转换 ， 或 是 从 整数 类 型 向 长 度 更 小 的 整数 类 型 转换 。 

口 不 同 精 度 间 的 转换 : 假设 你 有 一 个 小 数列 表 ， 其 中 每 一 个 值 的 精度 都 为 四 位 数字 ， 现 在 
你 想 把 数字 转换 成 精度 为 两 位 数字 的 数据 ， 或 许 更 糟 ， 直 接 转换 成 整数 类 型 。 这 时 每 个 
数字 都 会 被 四 舍 五 人 或 被 截取 ， 你 将 丢掉 原 有 的 精度 信息 。 



















































































2.3.3 ”转换 策略 


数据 类 型 的 转换 策略 有 多 种 , 但 具体 要 使 用 哪 一 种 取决 于 数据 的 存储 位 置 。 下 面 将 讲述 两 种 
在 数据 科学 清洗 过 程 中 比较 常见 的 数据 类 型 转换 策略 。 


第 一 种 策略 ， 基 于 SQL 的 操作 。 这 种 策略 适用 于 处 理 保存 在 数据 库 中 的 数据 。 我 们 可 以 使 用 
数据 库 函 数 ( 这 个 功能 几乎 在 每 个 数据 库 系统 中 都 能 找到 )， 把 数据 加 工 成 不 同 的 格式 ， 直 至 它 
们 适合 以 查询 结果 的 形式 直接 导出 或 是 存放 到 另 一 个 字段 中 去 。 


第 二 种 策略 ,基于 文件 的 操作 。 这 种 策略 可 以 用 来 处 理 文本 类 型 的 数据 文件 , 例如 电子 表格 
或 JSON 文 件 ， 我 们 需要 把 从 文件 中 读 取 出 来 的 数据 再 次 以 某 种 方法 进行 进一步 加 工 。 


1. SQL 级 别 的 类 型 转换 
接 下 来 将 演示 几 个 适用 于 采用 SQL 进行 数据 类 型 转换 的 常见 案例 。 
(1) 例子 一 : 解析 MySQL 数 据 并 格式 化 为 字符 串 


在 这 个 例子 里 , 我 们 需要 回 到 第 1 章 中 提 到 的 Enron 数 据 库 。 与 之 前 的 例子 一 样 , 我们 先 查 看 
数据 表 message， 该 表 中 包含 一 个 日 期 字段 ， 采 用 的 是 MySQL 的 daatetime 类 型 。 假 设 我 们 想 要 
打印 出 完整 的 月 份 拼写 〈 与 数字 相对 )、 星 期 和 时 间 。 怎 么 做 才能 达到 最 佳 效 果 呢 ? 
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目前 我 们 手 里 有 一 条 消息 ID (mid) 为 和 2 的 记录 ， 内 容 如 下 : 
2000-01-21 04:51:00 
而 我 们 希望 得 到 的 格式 则 是 : 


4:51am, Friday, January 21, 2000 E 


Q 选择 一 : 把 concat O 和 日 期 时 间 函 数 结合 起 来 使 用 ， 直 接 输 出 我 们 希望 看 到 的 结果 ， 具 
体 代码 如 下 。 但 这 种 方式 的 弱点 是 不 太 容易 输出 a.m/p.m: 


SELECT concat (hour(date), 




















minute(date), 


1 
了 了 


dayname (date), 
monthname (date), 


Tog 
了 


day (date), 


1 ' 
了 , 


year (date)) 
FROM message 
WHERE mid-52; 


2 

4:51, Friday, January 21, 2000 

如 果 我 们 必须 要 包含 am/p.m， 可 以 使 用 条 件 语句 来 判断 小 时 部 分 的 值 ， 如 果 小 于 12 则 打 
EN “am”, ZITEN “p.m”: 


SELECT concat( 
concat (hour (date), 


R 











minute (date)), 
if(hour(date)«12,'am','pm'), 
concat( 


' ' 
了 了 


dayname (date), 
monthname (date), 


day (date), 


' ' 
, , 


year (date) 
) 
) 
FROM message 
WHERE mid-52; 


2 


4:51am Friday, January 21, 2000 


A 
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MySQL 的 日 期 和 时 间 函 数 ， 如 day () 和 year ()， 它 们 的 开发 文档 信息 位 于 
y http://dev.mysql.com/doc/refman/5.7/en/date-and-time-functions.html; 字符 串 函 数 ， 
Q 如 concat() ， 其 开发 文档 位 于 http://dev.mysql.com/doc/refman/5.7/en/string- 
functions.html。 如 果 使 用 的 是 别 的 数据 库 管理 系统 , 我 们 也 可 以 找到 有 着 类 似 功 

能 的 函数 。 





口 选择 二 : 使 用 MySQL 提 供 的 更 为 高 级 的 date_format O 函数 。 这 个 函数 能 够 根据 我 们 提 


供 的 一 系列 字符 串 说 明 符 来 对 日 期 进行 格式 化 处 理 。MySQL 的 开发 文档 对 这 些 说 明 符 做 
了 非常 详尽 的 解释 。 下 面 例子 中 演示 的 代码 就 是 把 日 期 类 型 数据 转 成 我 们 期 望 的 格式 : 






































SELECT date format(date, '%l:%i%p, %W, %M ?se, %Y') 
FROM message 
WHERE mid-52; 


结 
4:51AM, Friday, January 21, 2000 


这 已 经 非常 接近 我 们 希望 的 结果 了 ， 而 且 代码 要 比 选择 一 中 的 精炼 得 多 。 唯 一 有 偏差 的 
地 方 就 是 am./p.m 都 是 大 写 的 。 如 果 我 们 想 要 小 写 的 形式 ， 可 以 像 下 面 这 样 修改 代码 : 





























SELECT concat( 
date format(date, '%l:%i'), 
lower(date format (date, '%p ')), 
date format(date, '%W, %M %e, %Y') 

) 

FROM message 

WHERE mid-52; 


2 
4:51am, Friday, January 21, 2000 
(2) 例子 二 : 从 字符 串 类 型 转换 到 MySQL 的 日 期 类 型 
在 这 个 例子 中 , 我 们 需要 使 用 Enron 数 据 库 下 的 一 张 新 表 , 这 个 表 的 名 字 是 referenceinfo。 


它 用 于 保存 由 其 他 消息 所 引用 的 消息 。 举 例 来 说 , 该 表 中 的 第 一 条 记录 有 一 个 值 为 2 的 rfia 字 段 ， 
其 中 包含 了 第 79 条 记录 所 引用 的 电子 邮件 内 容 。 该 字段 类 型 为 字符 串 ,数据 内 容 如 下 ( 部 分 截取 ): 


LUN 





























> From: Le Vine, Debi» Sent: Thursday, August 17, 2000 6:29 PM» To: ISO Market 
Participants» Subject: Request for Bids - Contract for Generation Under Gas» 
Curtailment Conditions»» Attached is a Request for Bids to supply the California ISO 


with» Generation 
内 容 挺 乱 的 ! 先 让 我 们 提取 首 行 中 的 日 期 并 把 它 转 成 MySQL 的 日 期 类 型 吧 ， 因 为 这 种 类 型 
的 数据 才 适 合 插入 数据 表 或 是 参与 日 期 计算 。 





— 
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要 完成 这 项 任务 ， 需 要 用 到 MySQL 的 内 置 函 数 str_to_qate() 。 这 个 函数 与 前 面 讨论 的 
date format () 有 点 像 ， 只 是 它 用 于 逆向 处 理 。 下 面 的 查询 语句 先是 找到 单词 Sent : ， 并 继续 
查找 后 续 的 字符 直到 > 符号 为 止 ， 然 后 把 得 到 的 字符 串 转换 成 MySQL 的 datetime 类 型 : 


SELECT 
psc sti. ERES] 


substring index( 
substring index(reference,'»',3), 
'Sent: ' 
-1 
), 
'99W,?eM %e, %Y ?eh:?ei %p' 
) 
FROM referenceinfo 
WHERE mid-79; 












































25 

2000-08-17 18:29:00 

现在 我 们 已 经 有 了 aatetime 类 型 的 数据 了 ， 可 以 选择 把 它 直 接 插 入 一 个 新 的 MySQL 字 段 ， 
或 是 利用 更 多 的 日 期 函数 来 对 其 进行 计算 。 


(3) 例子 三 : 把 MySQL 字 符 串 类 型 的 数据 转换 成 小 数 
在 这 个 例子 中 ， 我 们 需要 考虑 如 何 把 文本 中 的 数字 转换 成 适用 于 计算 的 数据 格式 。 


假设 我 们 要 从 安然 公司 的 某 些 电子 邮件 消息 中 提取 每 桶 〈 缩写 为 bbl ) 原油 的 价格 。 首 先 需 
要 做 的 是 编写 一 条 查询 语句 ， 从 某 个 发 件 人 所 发 出 的 邮件 中 查找 含有 /bbl 字 样 的 字符 串 ， 之 后 
再 向 前 查找 美元 符号 并 提取 与 之 关联 的 小 数 形式 的 数据 。 

下 面 的 样 例 取 自 Enron 数 据 库 中 的 message 表 ， 消 息 ID (mid) 为 270516， 先 让 我 们 看 看 字符 
串 中 的 数字 是 什么 样子 的 : 


March had slipped by 51 cts at the same time to trade at $18.47/bbl. 


















































下 一 步 我 们 可 以 使 用 MySQL 命 令 提 取 字 符 串 并 执行 数字 类 型 的 转换 操作 : 


SELECT convert( 
substring index( 
substring( 
body, 
locate('$',body)-41 
) ， 
'/bbl', 
1 
) ， 
decimal(4,2) 
) as price 


"m 
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FROM message 
WHERE body LIKE "%$%" AND body LIKE "%/bbl%" AND sender = 
'energybulletinGplatts.com'; 


引入 WHERE 子 句 可 以 确保 我 们 得 到 的 消息 包含 原油 价格 。 
函数 convert () 与 cast O 的 功能 相似 。 大 多 数 现代 数据 库 系 统 都 拥有 把 某 种 数据 类 型 转 成 











数字 的 功能 。 


2. 文件 级 别 的 类 型 转换 
在 这 一 节 中 ， 我 们 将 演示 一 些 在 文件 级 别 上 操作 数据 类 型 的 常见 案例 。 

这 一 节 讨 论 的 内 容 只 适用 于 采用 隐 式 类 型 结构 的 文件 类 型 , 例如, 电子 表格 
和 半 结 构 化 的 JSON 数 据 。 这 里 不 包括 使 用 分 隔 技术 ( 只 有 文本 信息 ) 的 纯 文本 
文件 ， 因 为 在 这 种 类 型 的 文件 中 ， 所 有 的 数据 都 是 文本 数据 。 


M 


(1) 例子 一 : Excel 中 的 类 型 发 现 与 转换 


可 能 大 多 数 人 都 知道 ， 在 Excel 和 类 似 的 电子 表格 程序 中 ， 可 以 使 用 格式 化 菜单 来 进行 数据 
类 型 转换 。 一 般 的 做 法 是 选择 想 要 修改 的 单元 格 ， 然 后 使 用 ribbon 上 的 下 拉 菜 单 进 行 操作 。 














Alignment : Number 
|abc | =) Wrap Text ~ : General ~ : 
TAA oo :| v General leo] 00]: 
T= RS Merge * : 2.0 
| Jm | Menbar ,00 | 7-0 | 
Currency 








Accounting 









Time 





15 Percentage 
Fraction 

7 Scientific 

8: Text 

«X Special 


| Custom... 











如 果 这 并 不 能 满足 你 的 需求 ， 还 可 以 使 用 一 个 名 为 Format Cells 的 对 话 框 ， 它 可 以 通过 格式 
化 菜单 打开 。 利 用 对 话 框 中 提供 的 选项 ， 可 以 对 转换 处 理 的 输出 内 容 进行 更 为 细 粒 度 的 控制 。 
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[Alignment Format Cells 
== d E cz 
labcr | 9 Wrap 
ies $8 [E | Number | Alignment Font Border Fil ^ Protection 
Category: Sample 
General 1/1/00 
Number 
Currency Type: 
Accounting 
Date 
Time "Wednesday, March 14, 01 
Percentage 
Fraction 
其 实在 Excel 中 还 有 两 个 较 少 有 人 知道 的 函数 ，istext () 和 isnumber 0, ， 它 们 在 格式 化 数 
据 方面 用 处 也 非常 大 。 











C2 :| 6 © (^ fx| -ISTEXT(A2) 
x A | B M D 
1 |date count 
E| 36526 2[ FALSE ] TRUE 
[es] 36527 2 
[4 | 36528 15 
[zd 36529 74 
| 6 | 36530 72 
本 到 36531 85 
| 8 | 36532 90 














这 两 个 函数 适用 于 任意 一 个 单元 格 ，istext () 会 依据 单元 格 中 数据 是 文本 类 型 或 非 文本 类 
型 而 返回 TRUE 或 FALSE， 而 isnumber () 则 会 依据 数据 是 否 为 数字 给 出 类 似 的 结果 。 在 与 条 件 
格式 化 特性 配合 使 用 时 , 这 两 个 公式 可 以 帮 你 在 数据 量 不 多 的 情况 下 定位 错误 数据 , 或 是 不 正确 
的 输入 数据 。 


另外 ，Excel 还 提供 了 一 些 不 需要 使 用 菜单 就 能 完成 从 字符 串 类 型 到 其 他 数据 类 型 转换 的 函 
数 。 下 图 演示 了 如 何 用 TExT () 函数 把 数字 类 型 的 日 期 转换 成 格式 为 yyyy-mm-dd 的 字符 串 类 型 日 
期 。 在 公式 栏 ， 只 需 输入 =TEXT (A4, "yyyy-mm-dd") ， 数 字 36528 就 会 被 转换 成 2000-01-03。 
这 样 就 能 得 到 字符 串 类 型 的 日 期 数据 了 。 


















































C4 + © © (^ fx| =TEXT(A4,"yyyy-mm-dd") 

| 1 |date count 

EJ 36526 2 

3 36527 2 

EE 36528 15 [2000-01-03 | 

5 36529 74 

6l 36530 72 

EJ 36531 85 

8 36532 90 
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(2) 例子 二 : JSON 中 的 类 型 转换 


JSON 作 为 一 种 基于 文本 的 半 结 构 化 类 型 ， 并 没有 提供 太 多 的 格式 化 选项 和 数据 类 型 。 回 想 
一 下 本 章 前 面 对 JSON 的 描述 ， 每 个 JSON 对 象 都 是 以 “名 - 值 ” 对 为 基础 构建 出 来 的 。 唯 一 可 以 
应 用 格式 化 操作 的 就 是 “名 - 值 ”对 中 的 值 部 分 ， 其 类 型 可 以 是 字符 串 、 数 字 或 列表 。 虽 然 JSON 
对 象 可 以 通过 手工 的 方式 来 构建 ， 比 如 在 文本 编辑 器 中 直接 输入 , 但 是 在 大 多 数 情况 下 ,我 们 都 
是 使 用 编程 的 方式 来 构建 JSON 对 象 的 ， 要 么 从 数据 库 中 输出 JSON， 要 么 写 一 个 小 程序 把 纯 文本 
文件 转换 成 JSON。 


如 果 我 们 设计 的 JSON 对 象 构建 程序 有 缺陷 ， 那 该 怎么 解决 呢 ” 比 方 说 程序 总 是 生成 字符 串 
类 型 数据 ， 而 并 非 我 们 想 要 的 数字 类 型 数据 。 这 种 情况 在 实际 的 工作 中 确实 会 存在 ,而 且 它 可 能 
会 导致 那些 使 用 JSON 的 程序 产生 意 想不到 的 结果 。 这 里 我 们 以 下 面 的 程序 为 例 ， 先 使 用 一 段 简 
单 的 PHP 代 码 生 成 JSON 数 据 ， 随 后 再 利用 这 些 JSON 数 据 在 D3 程序 中 人 处理， 最 终生 成 一 个 图 形 。 


PHP 代 码 所 生成 的 JSON 数 据 都 是 直接 来 自 数据 库 的 。 程 序 代 码 先是 连接 到 Enron 数 据 库 ， 然 
后 利用 构建 好 的 查询 语句 开始 检索 数据 库 , 并 把 检索 结果 逐条 放 到 数组 中 去 , 最 后 进行 编码 操作 
把 字符 串 值 转换 成 “名 - 值 ” 对 。 代 码 的 目的 就 是 生成 一 个 包含 日 期 和 数据 个 数 的 列表 ， 日 期 和 
数据 个 数 与 第 1 章 中 使 用 的 一 样 
«?php 
// 连接 到 数据 库 
$dbc = mysqdli connect('localhost','username','password','enron') 
or die('Error connecting to database!' . mysqdli error()); 
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// 这 里 使 用 的 查询 语句 与 第 1 章 按 照 日 期 进行 分 组 的 查询 语句 一 样 

$select query = "SELECT date (date) AS dateSent, count (mid) AS numMsg FROM message GROUP 
BY 1 ORDER BY 1"; 

$select result = mysqgli query($dbc, $select query); 

// 查询 失败 则 终止 处 理 

if (!$select result) 


die ("SELECT failed! [$select query]" . mysqli error()); 
// 构建 一 个 用 于 打印 json 格 式 数据 的 新 数组 
$counts = array(); 


while(S$row = mysqgli fetch array ($select result)) 
{ 
array. push($counts, array('dateSent' => $row['dateSent'], 'numMsg' E 
$row['numMsg'])); 
} 
echo json, encode($counts); 
?» 


E 这 里 要 注意 的 是 json_encode () 函数 需要 $.3 版 本 的 PHP 或 是 更 高 级 的 版 
A, 并 且 需 要 使 用 第 1 章 中 搭建 的 Enron 数 据 库 o 














结果 数据 的 问题 就 是 所 有 的 值 都 是 字符 串 类 型 一 一 由 于 PHP 把 数字 类 型 的 numMsg 也 加 上 了 
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双 引 号 ， 所 以 JSON 也 把 这 个 值 当 成 字符 串 处 理 : 


[ 
("dateSent":"0001-05-30","numMsg":"2"J, 
("dateSent":"0001-06-18","numMsg":"1"J 
] 


为 了 使 PHP 函 数 可 以 真正 地 用 于 处 理 数字 类 型 的 数据 ,而 不 是 简单 地 把 所 有 数据 都 当 作 字符 
串 类 型 对 待 ， 我 们 需要 在 数据 打印 到 屏幕 前 做 些 特别 的 转换 。 其 实 只 要 在 调用 json_encode () 
的 时 候 像 下 面 那样 稍微 做 一 下 调整 就 可 以 : 


echo json encode($counts, JSON NUMERIC CHECK); 
现在 JSON 结 果 中 的 numMsg 是 数字 类 型 了 : 


[ 
("dateSent":"0001-05-30","numMsg":2), 
("dateSent":"0001-06-18","numMsg":1j 
] 


PHP 还 有 一 些 类 似 的 功能 可 以 把 大 的 整数 类 型 转换 成 字符 串 类 型 。 这 种 功能 在 处 理 超大 数字 
的 时 候 可 以 派 上 用 场 ， 比 如 在 需要 把 session 中 的 值 或 是 Facebook 、Twitter 用 户 ID 保 存 成 字符 串 数 
据 的 时 候 。 


还 是 上 面 的 PHP 代 码 ， 假 如 我 们 没有 对 生成 的 JSON 结 果 进 行 调整 的 话 一 一 再 来 看 一 个 例子 ， 
假设 我 们 通过 API 来 获取 JSON 数 据 结果 ， 并 且 显 示 内 容 没 有 经 过 任何 调整 一 就 不 得 不 在 JSON 
对 象 构建 之 后 对 它 进 行 转换 。 如 果 碰 到 这 种 情况 ， 我 们 可 以 在 使 用 D3 时 通过 JavaScript 代 码 ， 利 
用 + 操作 符 来 迫使 目标 数据 从 字符 串 类 型 转换 成 数字 类 型 。 具 体 代 码 如 下 所 示 ， 我 们 先是 读 取 输 
出 的 JSON 内 容 ， 然 后 构建 图 形 。 字 段 numMsg 的 值 已 经 从 字符 串 类 型 被 强制 转换 成 数字 类 型 ; 
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d3.json("counts.json", function(d) ( 
return { 

dateSent: d.dateSent, 

numMsg: -«d.numMsg 

un 

), function(error, rows) ( 

console.log(rows); 

)); 


2.3.4 ”隐藏 在 数据 森林 中 的 空 值 
在 这 一 节 ， 我 们 要 把 我 们 的 勺子 伸 到 混 有 零 、 空 值 和 null 值 的 大 杂烩 汤 里 去 了 。 


这 三 者 之 间 有 什么 分 别 呢 ? 请 听 我 慢 慢 道 来 。 假 想 在 一 个 理想 的 厨房 里 , 你 有 一 个 高 级 的 烤 
炉 ， 炉 子 上 面 是 一 锅 香 浓 的 老 汤 。 这 时 你 的 副 厨 师长 问 你 :“ 锅 里 还 有 多 少 汤 ? ”请 看 下 面 三 种 
情况 的 回答 。 
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(1) 在 一 开始 你 就 发 现 ,炉子 上 根本 没有 锅 。 要 是 这 样 的 话 ,“ 锅 里 有 多 少 汤 ? ”这 个 问题 就 
没 法 回答 了 。 连 锅 都 没有 ! 答案 不 是 正 数 ， 也 不 是 零 ， 甚 至 连 空 都 不 是 。 答 案 是 NULL。 


D 经 过 几 个 小 时 之 后 ， 食 材 已 经 洗 净 并 且 也 切 好 了 ， 你 往 锅 里 上 且 了 一 眼 ， 刚 好 看 到 有 三 公 
升 的 老 汤 。 太 好 了 ， 你 现在 可 以 回答 这 个 问题 了 。 这 种 情形 下 ， 答 案 应 该 是 3。 


(3) 经 过 午餐 的 高 峰 期 之 后 ， 你 又 往 锅 里 看 了 一 眼 ， 发 现 没 有 汤 了 ,甚至 连 一 滴 汤 水 都 没有 。 
你 看 了 又 看 、 查 了 又 查 ， 问 题 “ 锅 里 有 多 少 汤 ? ”的 答案 只 能 是 堆 。 这 时 ， 你 顺势 把 锅 丢 进 了 洗 
Tit 


(4) 晚饭 前 ， 你 从 水 池 中 取出 洗刷 干净 的 汤锅 。 正 当 你 经 过 厨房 的 时 候 ， 副 厨师 长 又 发 问 了 : 
“ 锅 里 有 什么 ?” ”这 时 锅 里 是 空 的， 里 面 什么 东西 都 没有 。 但 要 注意 的 是 ， 这 次 答案 不 是 零 ， 
为 他 要 的 答案 是 不 可 以 用 数字 表达 的 。 当 然 ， 答 案 也 不 是 NULL， 因 为 锅 还 在 ,你 再 次 仔细 地 看 
看 ,答案 就 是 空 。 


不 同 的 数据 环境 和 编程 环境 ( DBMS 、 存 储 系 统 和 编程 语言 ) 在 对 待 零 、 空 值 和 NULL 这 三 
个 概念 时 稍 有 不 同 。 这 三 种 类 型 的 值 不 是 在 所 有 的 环境 下 都 有 着 明确 的 区 别 。 因 此 , 在 这 一 章 中 
我 们 只 讨论 比较 通用 的 内 容 , 在 列举 各 种 示例 的 时 候 会 指明 具体 的 应 用 环境 。 当 我 们 每 次 说 null、 
空 值 或 零 的 时 候 , 请 记得 指出 每 个 值 的 使 用 环境 ,这 很 重要 。 你 在 工作 中 直到 这 些 值 的 时 候 , 一 
定 得 搞 清楚 它们 所 代表 的 含义 。 


















































































































































y 在 使 用 Oracle 数 据 库 的 时 候 ， 请 多 加 小 心 ， 因 为 Oracle 中 的 空 值 、 空 白 和 

Q NULL 不 同 于 其 他 系统 。 在 读 完 这 一 节 内 容 之 后 ， 具 体 细 节 还 请 参考 Oracle 的 数 
据 库 文档 。 

1.3€ 









































首先 ， 也 是 最 重要 的 事 。 在 零 、 空 值 和 NULL 中 ， 最 容易 处 理 的 就 是 零 值 数据 。 零 是 可 测量 
的 数字 , 在 数值 系统 中 是 有 意义 的 。 我 们 可 以 拿 零 值 做 排序 ( 它 出 现在 1、2、3… 这 些 数字 之 前 )， 
还 可 以 拿 其 他 数字 来 跟 零 做 比较 (-2、-1、0、1、2 、3… )。 此 外 ， 零 还 可 以 参与 数学 计算 (但 
有 种 例外 的 情况 ， 零 不 可 以 做 除数 )。 

作为 一 个 合 规 的 数字 , 零 只 有 在 数字 类 型 中 才 可 以 发 挥 它 最 大 的 意义 。 而 以 字符 串 类 型 表现 
的 零 就 没有 这 么 多 功能 ,因为 它 最 终 要 么 被 解析 成 数字 0,， 要 么 被 解析 成 字符 0, 但 这 些 往往 都 不 
是 我 们 对 零 值 的 期 望 。 


PR 
zs 
. -L 


SEME, 空 值 的 处 理 要 难 一 些 , 它们 会 在 不 同 的 情况 下 产生 不 同 的 含义 ,以 字符 串 处 理 为 
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例 。 假 设 我 们 有 一 个 用 于 表现 中 间 名 (middle name ) 的 属性 。 可 是 我 没有 中 间 名 ， 所 以 我 得 把 
这 个 字段 放空 。( 回 事 : 我 妈妈 至 今 还 记得 我 的 幼儿 园 毕业 证 书 的 样子 ， 当 时 我 迫不及待 地 在 上 
面 编 了 个 中 间 名 ， 因 为 我 实在 不 好 意思 跟 老 师 讲 我 连 个 中 间 名 都 没有 。) 这 时 就 算是 使 用 空格 字 
符 或 连 字符 来 表现 空 值 也 不 会 有 更 多 的 意义 。 而 且 空 格 跟 空 值 根本 就 不 是 一 回 事 。 表 现 空 字 符 串 


的 正确 方式 就 是 把 它 “ 留 空 ”。 E 


在 CSV 或 分 隔 文件 中 ， 空 值 看 起 来 就 像 下面 的 内 容 一 样 一 一 注意 后 面 的 两 条 记录 ， 它 们 的 


"favorite color” 字 有 段 都 为 空 : 




























































































First name,birth date,favorite color,salary 
"Sally","1971-09-16","light blue",129000 
"Manu","1984-11-03","",159960 
"Martin","1978-12-10","",76888 


而 在 往 MySQL 数 据 库 中 INSERT 数 据 的 时 候 ， 则 使 用 下 面 的 代码 插入 “Manu” 记 录 ; 


INSERT INTO people (firstName, birthdate, faveoriteColor, salary) 
VALUES ("Manu","1984-11-03","",159960); 


而 对 于 半 结 构 化 的 数据 格式 ， 如 JSON ， 有 些 时 候 也 是 可 能 出 现 空 对 象 和 空 字符 串 的 。 请 看 
下 面 的 例子 : 


( 








"firstName": "Sally", 
"birthDate": "1971-09-16", 
"faveColor": "" 
"pet El 
"job": ( 
"jobTitle": "Data Scientist", 
"company": "Data Wizards, Inc.", 


"salary":129000 


=~~ 


} 
在 这 里 ， 我 们 拿 走 了 Sally 的 宠物 ， 并 把 她 的 “favorite color” 字 段 置 为 空 字符 串 。 














m 


e 空 

请 注意 ，" "【〔 两 个 双 引 号 中 间 夹 着 一 个 空格 字符 ， 有 了 时候 也 称 空白 , 但 空格 的 说 法 可 能 
为 恰当 一 些 ) 不 等 同 于 ""( 彼此 紧 挨 着 的 两 个 双 引 号 ,有 了 时候 也 称 空白 ,但 空 值 的 说 法 更 为 恰当 )。 
请 看 下 面 两 个 MySQL 的 INSERT 语 句 ， 注 意 比较 它们 之 间 的 不 同 之 处 : 

















-- this SQL has an empty for Sally's favoriteColor and a space for Frank's 
INSERT INTO people (firstName, birthdate, faveoriteColor, salary) 
VALUES ("Sally","1971-09-16","",129000), 

("Frank","1975-10-23"," ",76000); 


除了 空格 外 ,有 时 其 他 不 可 见 字符 也 会 被 误 当 成 空 或 空白 来 解析 , 这样 的 字符 有 制 表 符 、 回 
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车 、 换 行 符 等 。 在 使 用 这 些 字符 时 还 是 需要 仔细 一 些 的 ， 要 是 有 什么 疑问 ， 可 以 使 用 本 章 前 面 介 
绍 的 方法 来 查看 这 些 不 可 见 字符 。 





3. null 


如 果 你 查 一 下 词典 对 null 的 解释 ， 答 案 很 有 可 能 就 是 零 。 但 千 万 不 要 被 误导 了 。 在 实际 的 处 
理 中 ， 有 很 多 关于 NULL 的 定义 。 对 于 我 们 来 说 ， NULL 并 非 意味 着 空 无 一 物 ; 实际 上 ， 它 的 出 
现 表 明 连 空 值 都 缺席 了 。 


那 它 和 空 到 底 有 什么 分 别 ? 首先 ， 空 可 以 等 价 于 空 值 ， 就 像 空 字符 串 的 长 度 为 0 一 样 。 可 以 
想象 得 出 ， 空 其 实 是 一 个 实 实在 在 的 值 ， 可 以 针对 它 做 一 些 比较 操作 。 但 是 NULL 就 不 一 样 了 ， 
NULL 不 等 于 NULL， 而 且 NOT NULL 也 不 等 于 NOT NULL。 有 人 就 曾 建 议 说 ， 我 们 应 该 像 念 响 
那样 牢 牢 记 住 ，NULL 不 等 于 任何 值 ， 甚 至 是 它 本 身 。 


只 有 在 不 希望 出 现任 何 数据 的 情况 下 才 应 该 使 用 NULL。 这 就 跟 我 们 不 想 把 汤锅 放 到 炉子 上 
一 样 ! 


(1) 为 什么 中 间 名 的 例子 可 以 使 用 “ 空 ”而 不 能 使 用 NULL? 


问 得 好 。 回 想 一 下 前 面 汤锅 的 例子 ， 如 果 我 们 提出 了 问题 并 且 得 到 的 答案 是 空 , 那么 这 种 情 
况 与 从 未 得 到 过 答案 (NULL) 的 情况 完全 不 同 。 如 果 你 问 我 的 中 间 名 是 什么 ， 我 告诉 你 说 我 没 
有 中 间 名 ， 这 时 的 数据 应 为 空 。 但 如 果 你 只 是 不 清楚 我 是 否 有 中 间 名 ， 那 么 数据 则 为 NULL。 


(2) 在 清洗 数据 的 时 候 总 是 用 零 来 替代 空 或 null 会 有 用 吗 ? 


或 许 你 还 记得 第 1 章 中 的 电子 邮件 例子 吧 , 那 时 我 们 讨论 了 怎么 往 条 形 图 中 添加 缺失 的 数据 ， 
如 何 利用 电子 表格 程序 为 缺少 数据 的 日 期 自动 填充 零 值 数 据 ,虽然 我 们 没有 真 的 在 那些 日 期 上 挨 
个 计算 电子 邮件 的 个 数 , 但 图 形 还 是 会 补充 填写 缺失 的 数据 , 直接 把 它们 当成 零 对 待 。 这 样 做 可 
以 吗 ? W, 很 难说 。 如 果 我 们 敢 保 证 电子 邮件 系统 是 实时 的 , 并且 日 期 信息 也 都 准确 无 误 ， 那么 
我 们 当然 可 以 很 自信 地 说 我 们 已 经 掌握 了 发 出 的 全 部 邮件 ， 这 些 日 期 的 统计 数量 完全 可 以 估算 
为 零 。 但 是 ， 如 果 使 用 是 第 1 章 提 到 的 Enron 数 据 库 中 的 电子 邮件 ,我们 会 非常 明确 事实 不 是 这 
样 的 。 


另外 还 有 一 种 可 以 用 零 来 取代 空 的 情况 , 那 就 是 使 用 虚拟 日 期 或 是 日 期 片段 。 举 个 例子 来 说 ， 
你 知道 月 份 和 年 份 信息 ， 但 不 知道 具体 是 哪 一 天 ， 这 时 你 就 必须 在 所 有 的 日 期 字段 上 插入 数据 。 
使 用 数据 2014-11-00 有 可 能 会 满足 要 求 。 但 你 应 该 把 这 个 操作 用 文档 记录 下 来 (参考 1.3 节 )， 因 
为 只 有 这 样 才 有 可 能 在 六 个 月 之 后 ， 清 楚 地 了 解 当时 你 做 了 什么 ， 为 什么 这 么 做 !1 
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2.3.5 字符 编码 


在 早期 的 计算 中 ， 所 有 的 字符 串 类 型 数据 都 是 采用 128 个 不 同 的 符号 构建 而 成 的 。 这 种 早期 
的 编码 系统 被 称 为 美国 标准 信息 交换 代码 (ASCI )， 它 被 广泛 地 应 用 于 英文 字母 中 。 这 128 个 字 
符 包含 a-z、A-Z、0-9、 标 点 符号 、 空 格 以 及 一 些 如 今 不 太 常 用 的 电 传 代码 。 如 果 在 我 们 的 数据 
科学 厨房 里 使 用 这 种 编码 系统 ， 就 好 比 加 工 现成 的 冷冻 快餐 。 这 的 确 很 廉价 , 但 也 没有 什么 工艺 
和 营养， 不 要 指望 这 样 的 东西 能 得 到 客户 的 认可 。 


在 20 世 纪 90 年 代 早期 , 可 变 长 度 的 编码 系统 被 提出 并 实现 了 标准 化 , 这 就 是 现在 人 们 所 说 的 
UTF-8。 这 种 可 变 长 度 方案 可 以 容纳 更 多 的 自然 语言 符号 和 数学 符号 ， 并 为 未 来 的 变化 提供 了 更 
为 广阔 的 发 展 空 间 。( 这 些 符号 集合 统称 为 Unicode。Unicode 符 号 编码 称 为 UTF-8。) 现在 还 有 一 
种 UTF-16 的 编码 ， 每 个 字符 至 少 占用 两 个 字 节 。 在 编写 本 书 的 时 候 ，UTF-8 依 然 是 Web 中 的 主流 
编码 格式 。 


而 在 本 书 中 ,我 们 主要 关注 的 是 如 何 把 以 某 种 编码 格式 存在 的 数据 转换 成 男 外 一 种 编码 格 
式 。 与 此 有 关 的 一 些 示 例 场景 如 下 。 


O 有 一 个 MySQL 数 据 库 ， 它 是 以 某 种 简单 的 编码 格式 创建 的 〈 比 如 采用 MySQL 默 认 的 256 
位 Latin-1 字 符 集 )， 其 中 以 Latin-1 格 式 存放 了 一 些 UTF-8 数 据 ， 而 现在 你 希望 把 整个 表 改 
成 UTF-8 编 码 格式 。 

O 在 Python 2.7 程 序 里 面 有 一 些 只 适用 于 ASCII 编 码 的 函数 ， 但 现在 我 们 迫切 需要 用 它们 处 
理 使 用 UTF-8 编 码 的 文件 或 字符 串 。 


在 这 一 节 中 , 我 们 将 通过 几 个 简单 的 示例 来 演示 上 面 的 场景 。 但 在 实际 的 工作 中 , 你 遇 到 的 
字符 编码 问题 绝 不 局 限于 此 ， 这 里 只 是 抛砖引玉 而 已 。 

1. 例子 一 : 从 MySQL 数 据 中 找 出 多 字 节 字符 

假设 有 一 列 数据 , 我 们 非常 好 奇 其 中 有 多 少 值 是 以 多 字 节 格式 编码 的 。 如 果 字 符 是 以 多 字 节 
格式 进行 编码 的 , 我 们 可 以 通过 比较 它们 的 字 节 长 度 (需要 使 用 length O 函数 ) 和 字符 长 度 ( 需 
要 使 用 char_length() 函数 ) 来 把 它们 找 出 来 。 































































































































































































> 下 面 的 例子 里 使 用 了 MySQL 所 支持 的 MyISAM 版 本 数据 库 ， 关 于 这 个 版 本 
Q 的 文档 信息 请 参考 http://dev.mysql.com/doc/index-other.html。 























默认 情况 下 ，MySQL 中 MyISAM 版 本 的 test 数 据 库 采用 的 是 latin1_swedish_ci 字 符 编码 。 
所 以 ， 如 果 我 们 查询 含有 特殊 字符 的 国家 名 字 ， 得 用 下 面 的 语句 才能 看 到 想 要 查询 的 C6te 


d'Ivoire: 
































SELECT Name, length(Name) 








42 第 2 章 基础 知识 格式 、 类 型 与 编码 





FROM Country 
WHERE Code='CIV'; 






































运行 结果 显示 的 国家 名 字 是 C6te d'Ivoire ， 总 长 度 15,， 但 它 编码 后 的 内 容 则 是 CAT™te 
dAIvoire。 除 此 以 外 ， 在 其 他 一 些 字段 上 也 有 类 似 的 奇怪 编码 。 为 了 修正 这 个 问题 ， 需 要 使 用 下 
面 的 SQL 命令 把 国家 名 字 这 一 字段 的 默认 编码 调整 为 utf8 : 















































ALTER TABLE Country 
CHANGE Name "Name! CHAR(52) 
CHARACTER SET utf8 
COLLATE utf8 general ci 
NOT NULL DEFAULT 


现在 可 以 清空 数据 表 重新 插入 239 个 国家 : 

TRUNCATE Country; 

现在 所 有 的 国家 名 字 都 采用 UTF-8 重 新 编码 。 我 们 可 以 用 下 面 的 SQL 来 测试 下 结果 ， 看 看 是 
否 有 国家 采用 了 多 字 节 字符 来 展现 它们 的 名 字 : 


SELECT * 
FROM Country 
WHERE length(Name) != char length(Name); 


结果 显示 C6te d'TIvoire 和 法 属 岛 屿 Reunion 都 是 多 字 节 字符 。 

如 果 你 无 法 访问 world 数 据 库 ， 或 是 别 的 什么 数据 库 ， 请 参考 下 面 的 例子 。 你 可 以 运行 下 面 
的 MySQL 查 询 命令 来 进行 多 字 节 字符 比较 : 

SELECT length('44(k, X— 7 &/€L'), char length('f4X, T—2 $€9UVU'); 

在 这 个 例子 中 ， 日 语 字符 长 度 为 09， 而 编码 长 度 实 际 为 27。 

这 项 技术 可 以 用 于 检测 数据 的 字符 集 一 一 当 你 面 对 大 量 数据 而 无 暇 逐条 检查 的 时 候 , 多 么 希 
望 只 用 一 条 SQL 语句 就 轻松 地 找 出 那些 含有 多 字 节 的 记录 ， 并 以 此 为 依据 定制 接 下 来 的 清洗 计 
划 。 这 时 你 只 需要 执行 上 面 的 命令 就 可 以 找到 当前 使 用 多 字 节 编码 的 数据 。 

2. 例子 二 : 找 出 MySQL 中 以 Latin-1 编 码 存储 的 Unicode 字 符 以 及 其 等 价 的 UTF-8 编 码 形式 

下 面 示例 中 的 代码 使 用 了 convett () 函数 和 RLIKE 操 作 符 打印 出 保存 在 MySQL 数 据 库 中 并 
且 以 Latin-1 格 式 编码 的 Unicode 字 符 串 。 如 果 你 的 MySQL 数 据 库 也 恰巧 有 Latin-1 编 码 的 字段 的 话 ， 
也 可 以 使 用 这 段 代 码 ， 其 实 直至 今日 Latin-1 编 码 仍 旧 是 大 部 分 MySQL 数 据 库 的 默认 编码 ( 自 
MySQL 5 起 就 一 直 这 样 )。 

在 这 段 代 码 中 ， 我 们 使 用 了 面向 公众 开放 的 电影 与 影评 数据 库 Movielens。 整 套数 据 集 广 泛 
地 遍布 在 互联 网 的 许多 网 站 上 ， 包 括 它 的 原始 项 目 网 站 : http://grouplens.org/datasets/movielens/。 
另外 还 有 一 个 用 于 创建 该 数据 库 的 SQL 方案 链接 : https://github.com/ankane/movielens.sql。 如 果 想 
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顺利 地 运行 这 里 所 演示 的 例子 ， 请 访问 https://github.com/megansquire/datacleaning/blob/master/ 
ch2movies.sql]， 获 取 由 本 书 作者 准备 的 CREATE 和 INSERT 命 令 语句 。 通 过 这 些 命令 语句 ， 你 很 容 
易 创 建 出 演示 用 的 数据 表 并 完成 下 面 的 示例 代码 。 














SELECT convert( 
convert (title USING BINARY) USING latini 
) AS 'latinl1 version', 
convert( 
convert(title USING BINARY) USING utf8 
) AS 'utf8 version' 
FROM movies 
WHERE convert(title USING BINARY) 
RLIKE concat( 
ep, 
unhex('80'), 
unhex('FF'), 
IH 
); 


从 下 面 的 截图 中 可 以 看 到 上 面 的 命令 在 phpMyAdmin 中 的 运行 结果 ， 这 里 只 展示 Movielens 

















数据 库 movies 表 的 前 三 部 影片 信息 ， 它 们 的 title 字 段 均 采用 Latin-1 编 码 。 








latin-1 version utf-8 version 


City of Lost Children, The (CitA® des enfants perd... City of Lost Children, The (Cité des enfants perdu... 
MisAGrables, Les (1995) Misérables, Les (1995) 
Happiness Is in the Field (Bonheur est dans le prÁ... Happiness ls in the Field (Bonheur est dans le pré... 





有 什么 办 法 能 把 一 个 已 经 存在 的 数据 库 转 成 UTF-8 格 式 呢 ? 

由 于 UTF-8 格 式 在 Web 中 的 应 用 非常 普遍 , 并 且 它 在 精准 地 传递 用 世界 各 地 的 
自然 语言 的 信息 方面 起 着 重要 的 作用 ， 我 们 强烈 建议 你 使 用 UTF-8 编 码 创建 数据 
库 。 假 如 从 一 开始 就 使 用 UTF-8 编 码 ,我 们 工作 的 容易 程度 会 远 远 超出 我 们 的 想象 。 

但 是 ， 如 果 你 的 表 已 经 使 用 了 非 UTF-8 编 码 ， 不 过 还 尚未 填充 数据 ， 你 最 好 
还 是 把 它 改 成 UTF-8 编 码 并 重新 把 其 中 每 一 个 字段 的 字符 集 改 成 UTF-8 编 码 。 接 

下 来 你 就 可 以 用 UTF-8 编 码 格式 插入 数据 了 。 

最 棘手 的 情况 就 是 面 对 大 量 采 用 非 UTF-8 编 码 的 数据 , 你 需要 把 它们 转换 成 
UTF-8。 这 时 候 ， 你 得 先 做 一 些 计划 。 针 对 不 同情 况 要 采取 不 同 的 方法 ， 具体 取 
决 于 你 是 否 可 以 不 使 用 查询 命令 , 或 是 要 调整 的 字段 和 表 的 数量 多 少 , 在 做 转换 
计划 时 ， 你 应 该 根据 具体 的 数据 库 系 统 阅 读 相 关 文档 。 比 如 在 MySQL 数 据 库 中 
执行 转换 时 可 以 采用 几 套 不 同 的 方案 , 既 可 以 用 mysqldump, 又 可 以 用 SELECT、 
convert () 和 INSERT。 你 得 从 这 些 方案 中 选 出 一 个 最 适合 当前 数据 库 系 统 的 。 
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3. 例子 三 : 处 理 文件 级 别 的 UTF-8 编 码 


有 时 你 可 能 需要 调整 一 下 代码 来 处 理 文件 级 别 的 UTF-8 数 据 。 假 设 有 一 个 用 于 收集 并 打印 网 
页 内 容 的 小 程序 。 如 果 大 部 分 网 页 都 采用 UTF-8 编 码 , 我 们 就 得 在 程序 内 部 做 好 相应 的 处 理工 作 。 
但 不 地 的 是 , 许多 编程 语言 还 需要 做 一 些 额外 的 调整 才能 处 理 UTF-8 数 据 。 请 看 下 面 的 Python 2.7 
程序 ， 它 使 用 了 TwitterAPI 抓 取 10 条 推 文 数据 并 把 这 些 数据 写 人 到 文件 中 : 


import twitter 
import sys 
























































d EHE EHE EHE EHE EHE H HE E HH H H 
def oauth login(): 
CONSUMER KEY - '' 
CONSUMER SECRET - '' 
OAUTH TOKEN = '' 
OAUTH TOKEN SECRET - '' 
auth - twitter.oauth.OAuth(OAUTH TOKEN, OAUTH TOKEN SECRET, 
CONSUMER KEY, CONSUMER, SECRET) 
twitter api = twitter.Twitter(auth-auth) 
return twitter api 
dE EE EE EHE E HE EHE HHH 








twitter api - oauth login() 

codeword - 'DataCleaning' 

twitter stream - twitter.TwitterStream(auth-twitter api.auth) 
Stream - twitter stream.statuses.filter(track-codeword) 


f = open('outfile.txt','wb') 
counter - 0 
max tweets - 10 
for tweet in stream: 
print counter, "-", tweet['text'][0:10] 
f.write(tweet['text']) 
f.write('Nn') 
counter += 1 
if counter »- max tweets: 
f.close() 
sys.exit() 





为 了 拿 到 上 面 脚本 需要 用 到 的 密 钥 和 令 牌 ， 得 先 设 置 好 Twitter 认证 才 可 以 ， 

M 请 不 要 对 配置 细节 过 分 担心 ,你 参考 https://dev.twitter.com/apps/new 简 单 地 做 一 些 

Q 设置 就 能 让 脚本 工作 , 或 是 研究 一 下 第 10 章 中 的 Twitter 挖 握 案 例 。 第 10 章 会 讲解 
Twitter 开发 者 账号 的 全 部 设置 过 程 ， 并 详尽 地 描述 推 文 数据 的 采集 过 程 。 








这 个 小 程序 会 找 出 以 DataCleaning 为 关键 字 的 最 近 的 10 条 推 文 记录 。( 之 所 以 选择 这 个 关键 
词 ， 是 因为 我 最 近 在 以 这 个 词 为 主题 的 标签 下 发 布 了 几 条 全 由 表情 符号 和 UTF-8 字 符 组 成 的 推 
文 ， 我 确信 查询 结果 的 前 10 条 记录 会 产生 与 预期 一 样 的 结果 。) 但 是 在 用 上 面 的 Python 代码 把 这 
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些 推 文 数据 保 存 成 文件 的 时 候 ， 程 序 抛 出 了 下 面 的 报错 : 


UnicodeEncodeError: 'ascii' codec can't encode character u'\u00c9' in position 72: 
ordinal not in range(128) 


原因 是 open () 函数 不 能 用 来 处 理 UTF-8 字 符 。 可 以 采用 两 种 方法 来 修复 这 个 问题 : 过 滤 
UTF-8 字 符 ， 或 是 改变 文件 写 人 的 方式 。 

(1) 方法 一 : 过 滤 UTF-8 字 符 

如 果 决 定 使 用 过 滤 字 符 这 个 方法 , 我 们 得 明白 这 样 做 可 能 会 损失 一 些 比较 有 用 的 数据 。 本 章 
前 面 已 经 讨论 过 , 数据 损耗 是 一 件 很 麻烦 的 事情 。 不过， 如 果 我 们 已 经 充分 考虑 过 后 果 并 坚持 过 
滤 掉 这 些 字符 的 话 ， 需 要 对 之 前 的 for 循 环 做 如 下 修改 : 











for tweet in stream: 
encoded tweet = tweet['text'].encode('ascii','ignore') 
print counter, "-", encoded tweet[0:10] 
f.write(encoded tweet) 


这 段 新 代 码 将 冰岛 语 书写 的 推 文 内 容 从 原来 的 : 
Ég elska gógn 


改 成 : 





g elska ggn 


从 文本 分 析 的 角度 来 讲 ， 这 名 话 已 经 失去 了 原 有 的 意义 ， 因 为 字母 g 和 ggn 根 本 就 不 是 单词 。 
所 以 说 ， 采 用 这 种 方式 来 清洗 推 文 里 的 字符 编码 并 非 最 佳 方案 。 


(2) 方 法 二 : 以 UTF-8 字 符 写 入 文件 


还 有 一 种 选择 就 是 在 打开 文件 的 时 候 使 用 支持 UTF-8 的 codecs 或 io 库 。 在 文件 的 上 方 添加 
行 导 入 编码 库 的 代码 ， 然 后 像 下 面 这 样 操作 即 可 : 























f = codecs.open('outfile.txt', 'a+', 'utf-8') 
参数 a+ 表 明 在 文件 已 经 创建 的 情况 下 ， 我 们 希望 继续 往 文 件 中 追加 数据 。 


此 外 ， 我 们 还 可 以 换 一 种 方式 ， 在 程序 的 顶部 引入 io 库 ， 然 后 使 用 它 提供 的 open () 函数 ， 
这 个 函数 允许 传人 一 个 指定 的 编码 ， 代 码 如 下 : 








f= io.open('outfile.txt', 'a-«', encoding-'utf8') 
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我 们 可 以 使 用 Python 3 吗 ? 为 什么 例子 还 使 用 2.7 版 本 呢 ? 
Python 3 在 处 理 UTF-8 编 码 方面 确实 要 比 Python 2.7 容 易 得 多 ， 这 是 个 不 争 的 
事实 。 如 果 你 的 开发 环境 是 Python 3， 那 么 你 完全 可 以 使 用 它 。 我 个 人 更 喜欢 使 
X M Enthought Canopy 来 做 数据 分 析 、 数 据 挖 气 和 教学 工作 。Python 有 许多 发 行 版 
本 Enthought 是 其 中 之 一 一 是 为 2.7 版 本 编写 的 ， 并 且 在 一 段 时 间 内 不 大 可 
能 升迁 到 Python 3。 原 因 是 Python 3 版 本 对 语言 内 部 做 了 相当 大 的 调整 ( 比如 我 
们 一 开始 说 的 UTF-8 原 生 处 理 能 力 )， 这 意味 着 有 许多 重要 的 有 用 的 包 不 得 不 重 
新 编写 以 与 新 版 本 兼容 。 重 写 过 程 是 相当 耗费 时 间 的 。 关 于 这 个 问题 的 更 多 信息 ， 

请 参考 https://wiki.python.org/moin/Python2orPython3。 


2.4 小 结 
这 一 章 涵盖 了 许多 基本 概念 ， 本 书后 面 讲 数据 清洗 时 都 会 用 到 。 这 些 技 术 中 ， 有 的 很 简单 ， 


有 的 则 很 男 类 。 我们 已 经 学 习 了 文件 格式 、 压 缩 、 数 据 类 型 、 文 件 级 别 的 字符 编码 和 数据 库 级别 
的 字符 编码 。 在 接 下 来 的 一 章 中 , 我 们 将 再 学 习 两 个 新 的 数据 清洗 工具 : 电子 表格 和 文本 编辑 咒 。 


























数据 清洗 的 老 黄 牛 
电子 表格 和 文本 编辑 中 
































在 设计 家 庭 厨房 的 时 候 , 最 典型 的 一 种 布局 设计 就 是 使 用 经 典 的 三 角 区 , 每 个 角落 分 别 放置 
冰箱 、 水 槽 和 炉灶 。 而 在 数据 清洗 的 厨房 里 ,我 们 也 有 几 样 不 可 缺少 的 设施 ， 其 中 包括 低调 的 电 
子 表 格 应 用 和 文本 编辑 器 。 虽然 它们 看 起 来 平淡 无 奇 并 且 常 常 被 忽视 , 不 过 一 旦 掌握 它们 的 功能 
特性 ， 我 们 的 清洗 工作 将 变 得 又 方便 又 快捷 。 在 第 2 章 中 ， 通 过 数据 类 型 和 文件 类 型 的 学 习 ， 我 
们 已 经 简单 地 掌握 了 这 两 种 工具 的 使 用 方法 ， 而 在 这 一 章 ， 我 们 将 深入 学 习 以 下 内 容 。 


口 学 会 使 用 Excel 和 电子 表格 应 用 程序 来 进行 数据 操作 ， 具 体内 容 包括 文本 分 列 ， 字 符 串 的 
拆 分 与 拼接 ， 异 常数 据 的 查找 与 格式 化 ， 数 据 排序 ， 从 电子 表格 向 MySQL 数 据 库 导出 数 
据 ， 利 用 电子 表格 来 生成 SQL 语句 。 

a 学 会 使 用 文本 编辑 器 实现 数据 的 自动 抽取 与 操作 ， 并 把 它们 转换 成 对 我 们 更 为 有 用 的 格 
式 ， 具 体内 容 包括 使 用 正则 表达 式 完成 数据 的 查找 与 替换 ， 修 改 数据 的 行 首 和 行 尾 信息 ， 
基于 列 模式 的 编辑 。 

a 在 小 型 项 目 中 同时 使 用 这 两 种 工具 来 完成 数据 清洗 任务 。 
























































3.1 电子 表格 中 的 数据 清 ; 


电子 表格 在 数据 清洗 方面 的 功能 主要 体现 在 两 个 方面 : 一 是 它 可 以 将 数据 组 织 成 列 和 行 , 二 
是 它 的 内 置 函 数 。 在 这 一 节 中 , 我 们 将 学 习 如 何 最 大 限度 地 发 挥 电子 表格 的 功能 来 满足 数据 清洗 
任务 的 需求 。 




















3.1.1 Excel 的 文本 分 列 功能 


由 于 电子 表格 是 采用 行 和 列 的 设计 方案 保存 数据 的 ， 所 以 在 使 用 这 个 工具 进行 数据 清洗 时 ， 
我 们 要 做 的 第 一 件 事 就 是 整理 好 数据 。 例 如 ， 在 把 大 量 数据 粘贴 到 Excel 或 Google Spreadsheets 的 
时 候 ， 这 些 软件 工具 首先 会 尝试 查找 分 隔 符号 〈 如 逗号 或 制 表 符 )， 然 后 根据 相应 的 分 隔 符号 把 
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数据 拆 分 成 不 同 的 列 〈 请 参考 第 2 章 来 回顾 分 隔 数据 相关 的 内 容 ), 但 在 有 些 时 候 , 电子 表格 可 能 
找 不 到 分 隔 符号 ， 这 时 ,我 们 就 必须 人 为 地 提供 更 多 指导 来 把 数据 拆 分 成 不 同 的 列 。 请 看 下 面 的 
文本 数据 片段 ， 这 些 数据 是 从 Freenode 的 几 千 个 在 线 聊 天 主题 列表 中 摘 取 的 : 








[2014-09-19 14:10:47] === #eurovision 4 Congratulations to Austria, winner of the 
Eurovision Song Contest 2014! 

[2014-09-19 14:10:47] === t$tinkerforge 3 

[2014-09-19 14:10:47] === ##new 3 Welcome to ##NEW 


要 想得到 IRC 聊 天 服务 器 上 的 一 份 聊 天 频道 和 主题 数据 ， 可 以 使 用 alis 命 

Ao 这 个 命令 可 以 作为 /query 或 /msg 的 一 部 分 被 发 出 , 至 于 到 底 会 使 用 哪 一 个 ， 

由 服务 器 设置 决定 。 在 Freenode 上 , 命令 /msg alis * 会 生成 频道 列表 。 关 于 IRC 
的 更 多 信息 请 参考 https://freenode.net/services.shtml。 





















































单 凭 肉眼 我 们 就 可 以 看 出 ， 处 于 最 前 面 的 数据 是 时 间 戳 类 型 ， 紧 接着 的 是 ===， 然 后 是 # 和 
频道 名 称 ， 频 道 名 称 后 面 是 一 个 数字 (表示 在 构建 频道 列表 时 该 频道 中 有 多 少 用户 )， 最 后 是 频 
道 的 描述 信息 。 但 是 ， 当 我 们 把 这 些 数据 粘贴 到 Excel 或 是 Google Spreadsheets 后 ， 是 不 可 能 自动 
地 得 到 对 应 的 列 信息 的 。 虽 然 行 向 数据 解析 没有 问题 , 但 由 于 数据 的 分 隔 符号 有 很 多 不 一 致 的 地 
方 ， 所 以 列 向 数据 无 法 自动 拆 分 。 下 面 的 截图 中 的 内 容 是 数据 在 Google Spreadsheets 中 的 表现 。 
从 高 亮 的 单元 格 Al 中 可 以 看 出 ， 整 行 数据 都 是 置 于 函数 栏 的 ， 这 表明 该 行 数据 在 粘贴 后 全 部 处 
于 单元 格 Al 中 。 
























































Tx [2014-09-19 14:10:47] === sfeurovision 4 Congratulations to Austria, winner of the Eurovision Song Contest 2014! 
A B c D E F G 
1 [2014-09-19 14: 10:47] === Heurovision 4 Congratulations to Austria, winner of the Eurovision Song Contest 2014! 
2 [2014-09-19 14:10:47] === sttinkerforge 3 
3 [2014-09-19 14:10:47] === ##new 3 Welcome to ##NEW 


那 怎么 才能 在 电子 表格 中 比较 容易 地 创建 列 数据 , 让 每 个 独立 的 数据 都 放 在 它们 自己 所 对 应 
的 列 中 呢 ? 只 有 解决 了 这 个 问题 ， 我 们 才 有 机 会 完成 更 多 任务 ， 比 如 求 得 频道 中 的 用 户 平均 数 ， 
或 按照 频道 名 称 来 对 数据 排序 。 但 就 目前 的 情形 来 看 ， 面 对 这 些 复杂 的 字符 串 文 本 数据 , 我 们 是 
无 法 轻松 地 搞定 数据 排序 或 是 利用 函数 进行 数据 加 工 的 。 

想 要 解决 这 个 问题 ， 办 法 之 一 就 是 使 用 Excel 的 文本 分 列 向 时， 将 数据 拆 分 成 可 以 识别 的 几 
大 块 ， 之 后 再 重新 组 织 数据 并 按照 需求 剔除 不 需要 的 字符 。 具 体 的 操作 步骤 如 下 。 

(1) 选中 列 A， 然 后 开启 文本 分 列 向 导 (位 于 数据 菜单 中 )。 在 向 导 的 第 一 个 步骤 中 选择 固定 
宽度 , 在 第 二 个 步骤 中 双击 绘制 在 描述 字段 上 的 分 割 线 。 下 面 就 是 操作 后 的 截图 ， 只 有 前 几 列 被 
拆 分 ， 多 余 的 分 割 线 已 经 被 移 除 。 
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Data preview 


#eurovision 4 Congratulations to Austria, winne 
Ztinkerforge 3 


##new 3 Welcome to ZZNEW 














Excel 的 宽度 固定 拆 分 效果 
现在 结果 数据 看 起 来 应 该 与 下 图 相同 。 前 面 的 三 列 数据 看 起 来 还 不 错 , 但 宽度 固定 分 隔 方 法 
不 适用 于 D 列 中 的 用 户 数 量 和 频道 名 字 。 这 是 因为 与 前 面 几 列 数据 不 同 ， 频 道 名 称 的 长 度 无 法 预 
测 。 














H B c [ D NEM F [| G [ H BINNEN IN 
1 [2014-09-19 14:10:47] === Weurovision 4 Congratulations to Austria, winner of the Eurovision Song Contest 20141 
2 [2014-09-19 14:10:47] === itinkerforge 3 


[2014-09-19 14:10:47] ##new 3 Welcome to ##NEW 





























这 是 第 一 轮 文本 分 列 的 拆 分 结 


(2) 我 们 还 需要 执行 一 次 文本 分 列 , 但 这 次 只 需要 操作 D 列 就 可 以 了 , 并 且 这 回 使 用 分 割 字符 
功能 来 蔡 代 固定 列 宽 。 首 先 让 我 们 对 数据 做 一 下 分 析 ， 频 道 名 称 #eurovision 和 用 户 数 (4) 之 间 
有 两 个 空格 ， 而 在 4 和 频道 描述 之 间 也 有 两 个 空格 。 就 算 采 用 了 文本 分 列 方式 ， 我 们 也 无 法 使 用 
两 个 空格 作为 分 隔 符号 〈 因为 这 个 功能 只 允许 我 们 使 用 单个 字符 )， 所 以 我 们 需要 使 用 查找 和 和 替 
换 功 能 来 把 两 个 空格 替换 成 一 个 从 未 使 用 过 的 字符 。( 先 使 用 查找 功能 来 确定 我 们 选择 的 分 隔 符 
号 确实 没有 使 用 过 。) 这 里 我 选择 了 符号 ^。 


这 一 步 看 起 来 不 太 优雅 ， 如 果 你 有 什么 更 好 的 方法 ， 尽 管 放手 做 吧 。 与 其 他 一 些 工具 相 比 ， 
Excel 的 查找 和 替换 功能 是 非常 有 限 的 。 稍 后 我 们 会 在 3.2 节 学 习 正 则 表达 式 的 使 用 方法 。 
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Tab | Semicolon | Comma 


| Space Other: A 


Data preview 


Welcome to ##NEW 





Delimiters Treat consecutive delimiters as one 


Text qualifier: " " 


eurovision Congratulations to Austria, winner of the Eurovision Song 











添加 一 个 不 太 常 见 的 分 隔 字 符 有 利于 我 们 拆 分 剩余 的 字段 。 











(3) 现在 可 以 使 用 查找 和 替换 删除 A 列 和 B 列 中 的 字符 [和 ] ， 把 它们 替换 成 空 。( 请 在 开始 查 








找 和 替换 之 前 先 选 中 这 两 列 ， 以 免 意外 删除 工作 表 里 其 他 列 中 所 含有 的 相同 字符 。) 


遗憾 的 是 ， 有 时 Excel 做 得 太 多 了 ， 它 会 把 日 期 格式 转化 成 我 们 不 太 想 要 的 : 9/19/2014. "n 
果 你 想 让 这 些 日 期 恢复 到 以 往 的 样子 (2014-09-19 ), 请 选择 这 个 列 , 然后 使 用 设置 单元 格格 式 将 








日 期 格式 指定 为 yyyy-mm-dd。 





(4) 在 列 F 中 ， 字 符 串 的 开端 还 有 额外 的 空格 字符 。 使 用 trim() 函数 可 以 去 除 字符 串 前 面 的 


空格 字符 。 在 列 F 旁 边 插入 一 个 新 列 ， 然 后 调用 trim() 函数 ， 请 看 下 面 的 截图 。 
































O TRM — $6 — f| timg) EE 
E A T OA F E iE eal] 
2014-09-19 14:10:47 === #eurovision 4|=trim(g1) [Congratulations to Austria 
2 | 2014-09-19 14:10:47 === #tinkerforge 3 
3 | 2014-09-19 14:10:47 === itiinew 3 Welcome to ##NEW 








这 就 是 使 用 trim() 函数 去 除 字符 串 首 尾 空 格 字符 之 后 的 效果 。 








(5) 我 还 可 以 使 用 clean (O 函数 来 完成 文本 剪裁 。 这 个 函数 会 去 除 ASCII 表 中 前 32 个 字符 : 就 























外 面 使 用 : clean(trim(g1)). 





是 那些 可 能 混杂 在 频道 描述 字段 中 的 所 有 非 打印 控制 字符 。 此 外 , 还 可 以 把 clean () 套 在 trim() 
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(6) 选中 单元 格 F1, 按 住 右 下 角 并 向 下 拖 搜 , 这 样 F 列 其 余 的 单元 格 也 都 会 应 用 clean (trim 0 ) o 
(7) 选中 F 列 ， 复 制 ， 再 用 选择 性 粘贴 粘贴 数值 ， 现 在 我 们 可 以 删除 G 列 了 。 
(8) 删 掉 G 列 。 好 了 ， 数 据 清洗 完毕 。 




















3.1.2 ”字符 串 拆 分 


在 Google Spreadsheets 中 有 一 个 轻 量 级 的 文本 分 列 功能 ，split () 函数 ， 但 Excel 没 有 提供 这 
个 函数 。 这 个 函数 的 作用 就 是 接收 一 个 字符 串 值 然后 把 它 分 割 成 几 段 。 而 你 需要 提供 足够 多 的 新 
列 来 容纳 分 割 后 的 数据 。 在 接 下 来 的 演示 中 , 我 们 还 要 使 用 前 例 中 的 数据 , 在 其 基础 之 上 创建 几 
个 新 列 来 放置 来 自 D 列 分 割 之 后 的 数据 。 












































fx -split(D1,"-") 

A B C D | 
1 [2:14 — — le 19 2014-09-19 | 
2 2014 9 19 2014-09-19 
3 2014 9 19 2014-09-19 | 





3.1.3 ”字符 串 拼接 


PEZ concatenate () 可 以 接受 多 个 字符 串 参数 ( 既 可 以 是 单元 格 引用 也 可 以 是 带 引 号 的 字 
TRO, 然后 把 它们 连接 到 一 块 儿 放 到 新 的 单元 格 中 。 在 下 面 的 例子 中 ,我们 使 用 concatenate O 
函数 把 日 期 和 时 间 两 部 分 字符 串 组 合 到 一 起 。 这 个 函数 在 Excel 和 Google Spreadsheets 中 都 可 以 使 
用 ， 请 看 下 面 的 截图 。 




















fx | =CONCATENATE(B1,” ”,C1) 
A B C 
1 |2014-09-19 14:10:47 12014-09-19 14:10:47 
2 2014-09-19 14:10:47 2014-09-19 14:10:47 
3 2014-09-19 14:10:47 2014-09-19 14:10:47 














1. 使 用 条 件 格式 化 查找 异常 数据 

Excel 和 Google Spreadsheets 都 提供 了 条 件 格式 化 功能 。 条 件 格 式 化 使 用 一 组 规则 来 改变 满足 
标准 (条件 ) 的 单元 格外 观 〈 格 式 )。 因 此 ,我 们 可 以 利用 这 个 功能 来 找 出 数据 中 的 高 值 、 低 值 、 
遗漏 的 值 或 是 不 正确 的 值 。 只 要 我 们 找到 这 些 异 常数 据 ， 就 可 以 对 它们 展开 清洗 操作 了 o 
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下 面 的 例子 向 我 们 演示 了 如 何 使 用 Google Spreadsheets 的 条 件 格式 化 功能 ， 在 样本 数据 中 找 


出 频道 名 称 里 没有 包含 符号 # 的 记录 以 及 聊天 人 数 为 空 的 记录 。 





Conditional formatting 


Text Color: 
Y Background Color: 


Format: 


Text does not contain $ # 


Text Color: 
v/ Background Color: 


Cell is empty 二 Format: 


Range: 
D1:D4 


Range: 
E1:E4 


























下 面 是 执行 结果 , 被 定位 到 的 单元 格 背 景色 都 发 生 了 变化 , 这 些 单元 格 的 内 容 要 么 是 没有 以 





























符号 # 开 头 的 D 列 数据 ， 要 么 是 含有 空 值 的 E 列 数据 。 现 在 很 容易 找到 这 些 有 问题 的 值 。 
fx 
A B C D E F 
1 2014-09-19 14:10:47 2014-09-19 14:10:47 #eurovision 4 Congratulations to Au 
2 2014-09-19 14:10:47 2014-09-19 14:10:47 fitinkerforge 3 | 
3 2014-09-19 14:10:47 2014-09-19 14:10:47 THinew 3 Welcome to ##NEW | 
4 2014-09-20 14:10:48 2014-09-20 14:10:48 /END OF LIST 
2. 使 用 排序 查找 异常 数据 
如 果 待 检查 的 数据 过 多 , 我 们 就 需要 考虑 使 用 排序 功能 来 查找 问题 数据 了 。 不 管 是 在 Google 








Spreadsheets 还 是 Excel 中 ， 我 们 都 可 以 选中 要 排序 的 列 ， 使 用 数据 菜单 上 面 的 排序 功能 来 对 数据 
进行 排序 操作 。 对 于 大 部 分 字段 来 说 ， 排 序 实现 起 来 都 很 容易 ， 特 别 是 查找 像 单元 格 D4 那 样 的 
数据 的 时 候 。 

但 遇 到 E 列 这 种 缺少 数据 的 情况 ， 排 序 还 能 派 上 用 场 吗 ? 或 许 只 要 把 缺少 数据 的 记录 集中 起 
来 就 可 以 把 它们 删除 了 。 单 元 格 E4 中 的 值 是 空 的 。 还 记得 第 2 章 中 所 提 到 的 NULL ( Google 
Spreadsheets 把 它 当 作 空 处 理 ) 吧 ， 这 种 空 值 是 不 能 与 任何 值 进行 比较 的 ， 因 此 ， 不论 对 E 列 采用 
升序 排列 还 是 降序 排列 ， 排 序 之 后 它们 总 是 停留 在 数据 列表 底部 。 


3. 往 MySQL 中 导入 电子 表格 数据 
现在 电子 表格 中 的 数据 已 经 清洗 完毕 ， 
(1) 从 电子 表格 创建 CSV 数 据 


许多 数据 库 系 统 都 提供 从 CSV 文 件 导 入 数据 的 功能 。 如 果 你 使 用 的 是 MySQL， 可 以 使 用 一 个 
叫 作 LOAD DATA IN FILE 的 命令 把 数据 从 分 隔 文件 加 载 到 数据 库 中 ， 至 于 分 隔 符 号 ， 你 完全 可 
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接 下 来 就 要 把 数据 放 到 数据 库 长 久保 存 下 来 。 
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以 自己 指定 。 首 先 让 我 们 看 一 个 命令 的 使 用 示例 ， 然 后 再 根据 所 需 参数 从 Excel 中 创建 数据 文件 。 
在 MySQL 的 命令 行 下 运行 下 面 的 命令 : 


load data local infile 'myFile.csv' 
into table freenode topics 
fields terminated by ',' 
(dateOfTopic, channel, numUsers, message); 


命令 运行 的 前 提 是 数据 库 中 的 表 已 经 创建 完毕 。 在 这 个 例子 中 ， 表 的 名 字 是 freenode_ 
topics， 其 中 指定 了 四 个 字段 ， 它 们 位 于 SQL 命 令 中 的 最 后 一 行 。 cm 


其 中 使 用 到 的 CSV 文 件 名 字 为 myFile.csv， 里 面包 含 的 字段 顺序 应 该 与 表 中 的 字段 顺序 
对 应 ， 分 隔 符号 为 逗号 。 

在 Excel 中 ，CSV 文 件 的 创建 方法 为 ， 从 文件 菜单 中 选择 另存 为 ， 然 后 从 保存 类 型 的 列表 中 
选择 CSV (i£ 408) o Google Spreadsheets 的 创建 方法 与 之 类 似 ，File| Downloads | CSV。 不 管 
使 用 哪 种 工具 ， 只 要 把 文件 保存 到 本 地 系统 ， 就 可 以 马上 启动 MySQL 客 户 端 ， 运 行 前 面 的 命令 
行 导 入 数据 。 














如 果 你 不 喜欢 使 用 MySQL 命 令 行 客户 端的 话 ， 可 以 选择 MySQL 的 

>》 Workbench 图 形 化 客户 端 或 是 PhpMyAdmin 这 样 的 工具 ， 把 CSV 上 传 到 数据 库 服 

Q 务 器 。 在 使 用 PhpMyAdmin 的 时 候 需 要 注意 , 它 对 上 传 的 文件 大 小 是 有 限制 的 ( B 
前 是 2 MB )。 


(2) 使 用 电子 表格 生成 SQL 


如 果 你 不 能 把 前 面 讨论 的 CSV 数 据 文 件 加 载 到 数据 库 一 一 不 管 出 于 什么 原因 , 也 许 是 因为 权 
REAR, 或 是 文件 大 小 受 限 , 这 时 可 以 考虑 使 用 男 一 种 方法 把 数据 导入 数据 库 。 这 个 方法 乍 
一 看 起 来 会 让 人 觉得 有 点 奇怪 , 但 它 确实 会 节省 不 少时 间 。 这 个 方法 就 是 在 电子 表格 应 用 内 部 构 
造 INSERT 语 句 ， 然 后 在 数据 库 中 运行 生成 的 命令 。 

如 果 电 子 表格 中 的 每 一 列 都 代表 着 数据 库 中 的 一 个 字段 , 我 们 只 和 需 围 绕 各 个 字段 添加 SQL 命 
令 INSERT 所 需 的 组 件 (引用 字符 串 、 贺 括号、 命令 、 分 号 )， 然后 将 结果 拼接 起 来 形成 最 终 完整 


的 INSERT 命 令 即 可 。 















































fx INSERT INTO freenode topics (dateOfTopic, channel,num_users,message) VALUES(' 
B C D EFG H I 





A 
1 INSERT INTO freenode topic 2014-09-19 14:10:47 ', seurovision ', 4 ,' Congratulations to Aus '); | 
2 INSERT INTO freenode topic 2014-09-19 14:10:47 ', #tinkerforge ', 3 ， Ji | 





3 INSERT INTO freenode topic: 2014-09-19 14:10:47 ',' ##new ',. 8 ,' Welcome to NEW "); | 
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使 用 函数 concatenate(A1:I1) 将 列 A:I 中 所 有 内 容 连 接 之 后 会 得 到 下 面 的 INSERT 语 句 : 








INSERT INTO freenode topics (dateOfTopic, channel, num users, 
message) VALUES('2014-09-19 14:10:47', '&eurovision', 4, 
'Congratulations to Austria, winner of the Eurovision Song Contest 
20141"); 


我 们 可 以 把 生成 的 命令 粘贴 到 界面 友好 的 前 端 应 用 程序 中 去 ， 如 PhpMyAdmin 或 MySQL 
Workbench. 或 者 是 (使 用 文本 编辑 器 ) 把 这 些 命 令 存 为 文本 文件 ， 每 条 INSERT 语 句 彼 此 之 间 紧 
密 相连 。 我 创建 的 文件 名 字 为 inserts.sql。 现 在 该 使 用 命令 行 和 MySQL 客 户 端 导 入 数据 文件 了 ， 
请 参考 下 面 的 例子 : 















































$mysql -uusername -p -hhostname databasename < inserts.sql 





或 者 是 利用 MySQL 命 令 行 客户 端 里 的 source 命 令 导入 文件 : 


$mysql -uusername -p -hhostname 
[enter your password] 

» use databasename; 

> Source inserts.sqgl 


这 两 种 操作 都 可 以 把 数据 插入 到 MySQL 数 据 库 中 。 如 果 脚 本 不 那么 大 , 你 也 可 以 使 用 MySQL 
Workbench 这 样 的 图 形 化 客户 端 导入 数据 。 但 在 加 载 较 大 的 脚本 时 则 需要 多 加 小 心 ， 因 为 客户 机 
在 加 载 几 百 G 的 数据 量 时 很 可 能 会 内 存 不 足 。 我 个 人 比较 喜欢 第 二 种 方法 (source )， 因 为 它 会 
在 成 功 插入 数据 之 后 打印 出 成 功 执行 的 消息 ， 这 样 我 就 会 知道 命令 是 没有 问题 的 。 


如 果 你 还 不 太 清楚 怎么 创建 inserts.sql 文 件 的 话 , 那么 下 一 节 的 内 容 你 可 得 好 好 读 读 。 我 们 要 
讲述 的 文本 编辑 器 知识 绝对 超 乎 你 的 想象 ! 



























































3.2 ”文本 编辑 器 里 的 数据 清 ; 


我 们 已 经 在 第 2 章 中 了 解 到 , 文本 编辑 器 是 读 写 文本 文件 的 首选 方案 。 这 上 听 起 来 挺 有 道理 的 ， 
而 且 再 正常 不 过 了 。 其 实 我 不 是 要 老生 常 谈 ， 非 得 告诉 你 哪个 文本 编辑 需 有 什么 样 的 超 酷 功 能 ， 
或 者 是 教 你 如 何 用 文本 编辑 器 帮助 整 天 需要 与 文本 文件 打交道 的 程序 员 和 数据 清洗 人 员 完 成 他 
们 的 工作 。 我 只 是 想 向 大 家 介绍 文本 编辑 器 中 最 为 常用 的 一 些 功 能 而 已 。 



































实际 上 ，, 在 每 个 操作 系统 中 都 有 一 大 把 文本 编辑 器 可 用 。 有 的 需要 付费 ,但 

M 也 有 许多 免费 的 。 在 这 一 章 中 ,我 用 的 是 Text Wrangler, '£4£ OS X. E89 — 34 fe, t 
Q 编辑 器 (产品 地 址 为 : http://www.barebones.com/products/textwrangler )。 在 这 一 
章 中 介绍 的 许多 功能 在 其 他 编辑 器 中 也 都 能 找到 ， 比 如 Sublime， 但 你 最 好 还 是 

先 查 查 这 些 编辑 器 提供 的 文档 ， 因 为 不 是 所 有 功能 或 工具 的 位 置 都 那么 明显 。 


邮 
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3.2.1 文本 调整 


我 们 选用 的 文本 编辑 器 内 置 了 许多 用 于 文本 操作 的 功能 。 这 里 将 要 描述 的 大 部 分 功能 都 与 数 
据 清洗 任务 有 关 。 请 记 住 , 在 数据 清洗 的 过 程 中 你 可 能 需要 针对 同一 个 数据 文件 多 次 运行 不 同 的 
程序 ， 在 这 种 情况 下 ， 我 们 可 以 用 第 1 章 中 学 到 的 技巧 来 清楚 地 传达 数据 清洗 的 工作 内 容 。 

改变 大 小 写 是 数据 清洗 工作 中 很 常见 的 任务 。 很 多 时 候 , 我 们 拿 到 的 数据 要 么 都 是 小 写 , 要 
么 都 是 大 写 。 而 利用 下 面 截图 中 显示 的 Text Wrangler 对 话 框 ， 我 们 可 以 改变 选中 文本 的 大 小 写 。 
其 中 每 个 功能 选项 的 键盘 快捷 键 都 显示 在 最 右边 。 


























Change Case: 
© ALL UPPER CASE %1 Capitalize Words 363 
all lower case 382 Capitalize sentences. 364 
Capitalize lines 365 
Cane | OLLI 














这 些 功能 选项 包括 把 文本 全 部 变 成 大 写 、 全 部 变 成 小 写 ， 以 及 把 每 个 单词 、 句 子 或 每 一 行文 
本 的 首 字母 变 成 大 写 。 


另外 还 有 一 种 常见 的 任务 , 就 是 在 选中 的 文本 上 为 其 每 一 行 添加 或 删除 前 后 级 。 可 能 在 某 一 
天 构建 文本 分 类 需 的 时 候 我 就 需要 在 大 段 文 本 上 应 用 这 项 操作 。 比如 为 每 一 行文 本 的 末端 追加 逗 
号 与 该 行 的 类 别 划分 所 对 应 的 类 别名 称 〈 肯 定 或 否定 该 行 的 类 别 所 属 )。 下 面 显 示 的 是 Text 
Wrangler 前 后 缀 操作 对 话 框 。 需 要 注意 的 是 ， 你 可 以 使 用 插 和 人 功能 或 者 是 删除 功能 ， 但 没 法 在 一 
次 操作 中 同时 使 用 这 两 种 功能 。 如 果 你 需要 使 用 这 两 种 功能 的 话 , 那 就 先 执行 其 中 的 一 个 ,然后 
再 执行 为 一 个 。 






































Q Insert 38l ` Remove 38R 
Prefix: (33 
Suffix: | (3) 
Cancel 








Zap Gremlins ( 一 种 将 非 ASCII 字 符 转 换 为 其 他 字符 的 方法 ) 对 文本 编辑 带 来 说 绝对 是 一 项 锦 
上 添 花 的 功能 。Windows 版 本 的 TextWrangler 和 Sublime 编 辑 器 都 有 这 个 功能 。 在 zap gremlins 
的 过 程 中 ， 文 本 编辑 需 会 查找 那些 不 在 党 规 字符 集 范 围 之 内 的 所 有 字符 ， 比 如 控制 字符 、NULL 
字符 和 非 ASCI 字 符 。 我 们 可 以 选择 删除 这 些 字符 或 是 使 用 这 些 字 符 所 对 应 的 编码 来 替代 它们 。 
或 者 干脆 用 我 们 指定 的 字符 来 作为 替代 字符 。 这 样 做 的 好 处 就 是 在 后 续 的 处 理 中 更 容易 找到 这 些 
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字符 曾经 出 现 过 的 地 方 。 





Zap: Zapped characters: 
Non-ASCII characters 368 © Delete 381 
Control characters 36T Replace with code 362 
Null (ASCII 0) characters 360 Replace with: * 
Cance | EZ 











3.2.2” 列 选 模式 


当 文本 编辑 需 处 于 列 选 模 式 的 时 候 , 这 意味 着 你 不 仅 可 以 按 行进 行文 本 选取 , 还 可 以 按 列 选 
取 。 下 面 是 一 个 正常 选取 模式 〈 非 列 选 模式 ) 下 的 例子 : 

















1 [2014-09-19 14:10:47] === Xeurovision 4 Congratulations to Austria, 
2 [2014-09-19 14:10:47] === stinkerforge 3 

3 [2014-09-19 14:10:47] === ##new 3 Welcome to ##NEW 

4 [2014-09-19 14:10:47] === £postcyberpunk 3  Postcyberpunk related ma 
5 [2014-09-19 14:10:47] === #0si 7 The Open Source Initiative 

6 [2014-09-19 14:10:48] === £apg-dev 3  APG - latest version: 1.1.1 - 














下 面 是 列 选 模式 下 的 文本 选取 例子 。 按 住 Option 键 可 以 按 列 选取 文本 。 一 旦 文本 被 选中 ,你 
就 可 以 对 它们 进行 删除 操作 ， 剪 切 或 粘贴 到 剪 切 板 ， 或 者 是 像 上 一 他 讨 论 的 那样 调整 。 

















1 [2014-09-19 14:10:47] === £eurovision 4 Congratulations to Austria, 
2 [2014-09-19 14:10:47] === #tinkerforge 3 

3 [2014-09-19 14:10:47] === ##new 3 Welcome to ##NEW 

4 [2014-09-19 14:10:47] === £postcyberpunk 3  Postcyberpunk related ma 
5 [2014-09-19 14:10:47] === #0si 7 The Open Source Initiative 

6 [2014-09-19 14:10:48] === £apg-dev 3 APG - latest version: 1.1.1 - 





不 过 这 个 功能 有 一 些 限 制 。 


口 因为 每 个 字符 都 独占 一 列 ， 所 以 显示 字符 时 使 用 非 比例 的 打字 机 字体 会 比较 好 一 些 。 

口 在 Text Wrangler 中 ,， 列 选 模式 只 有 在 自动 换行 模式 关闭 的 情况 下 才能 使 用 。 关 闭 自动 换行 
意味 着 文本 将 一 直 向 右 延 展 ， 不 会 折 行 。 

O 在 Text Wrangler 中 ， 要 绘制 的 列 的 垂直 高 度 ， 必 须 能 够 手动 完成 ,因此 这 一 技术 只 适用 于 
少量 数据 ( 儿 百 行 或 几 千 行 ， 不 太 可 能 是 成 于 上 万 行 )。 



































3.2.3 ”加 强 版 的 查找 与 替换 功能 
不 得 不 说 , 文本 编辑 器 在 文本 操作 这 方面 真 的 很 出 色 。 但 它 的 列 选 模式 总 是 让 人 感觉 有 些 怪 
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怪 的 ,因为 这 看 起 来 更 像 是 电子 表格 应 该 干 的 事情 。 同 样 ， 如 果 你 了 解 了 文本 编辑 器 的 查找 与 替 
换 功 能 ， 电 子 表格 的 查找 与 替换 也 会 显得 拙劣 不 堪 。 


下 面 显示 的 是 Text Wrangler 中 的 查找 对 话 框 窗口 截图 。 里 面 提供 了 区 分 大 小 写 的 查找 ， 折 行 
查找 , 在 选中 的 文本 中 查找 ， 以 及 单词 全 字符 匹配 或 单词 部 分 字符 匹配 的 查找 。 你 可 以 往 文本 框 
里 粘贴 特殊 字符 、 空 白字 符 〈 包 括 制 表 符 和 换行 符 )、 表 情 符号 等 。 查 找 对 话 框 右 侧 的 下 拉 按 钮 
中 还 额外 提供 了 一 些 功 能 选项 , 顶部 带 有 时 钟 图 标的 按钮 会 保留 最 近 一 段 时 间 内 所 使 用 过 的 一 些 
查找 与 蔡 换 操作 记录 。 底 部 带 有 字母 的 按钮 包含 了 一 个 内 置 的 常用 搜索 模式 列表 ， 我 们 可 以 通 
过 列表 最 下 方 的 选项 添加 自 定 义 模式 。 



















































































e o Find 
Find: [| To- 
LE 
Replace: 
Matching: | | Case sensitive | Entire word | | Grep 
Search in: Selected text only Wrap around 

















查找 与 替换 中 最 强大 的 功能 之 一 就 是 Grep 选 项 。 勾 选 上 这 个 选项 之 后 , 我 们 就 可 以 使 用 正则 
表达 式 来 进行 查找 。 简 单 地 讲 ， 正 则 表达 式 ( regex ) 是 一 种 以 特殊 语言 编写 的 匹配 模式 ， 由 各 
种 符号 组 成 , 其 设计 目的 就 是 为 了 匹配 字符 串 文 本 。 关 于 正则 表达 式 的 讲解 超出 了 本 书 的 讨论 范 
围 ， 我 们 只 要 明白 它们 用 处 很 大 ， 在 数据 清洗 的 时 候 可 能 需要 时 不 时 地 用 到 ， 这 就 足够 了 。 









































Text Wrangler 界 面 中 使 用 Grep 作 为 复 选 框 的 名 字 一 一 而 不 是 RegEx 或 
y% Match 是 因为 有 好 几 种 不 同 的 正则 表达 式 模 式 匹 配 语 法 。 而 Text Wrangler 
我 们 的 提示 信息 是 ， 它 所 使 用 的 语法 来 自 于 Grep 一 一 一 种 最 初 为 Unix 编 写 的 程 

序 ， 它 的 语法 也 是 广泛 使 用 的 正则 表达 式 语法 之 一 。 











接 下 来 让 我 们 看 看 数据 清洗 中 常用 的 正则 表达 式 符 号 。 如 果 你 想 学 习 更 为 复杂 的 模式 , 最 好 
还 是 查阅 一 些 专 门 的 书籍 或 是 网 站 ， 其 中 列举 了 各 种 稀奇 古怪 的 正则 表达 式 语法 。 






























































^H ”号 使 用 说 明 
s 匹配 一 行 的 结尾 位 置 
匹配 一 行 的 开始 位 置 
* 匹配 一 个 或 多 个 指定 的 字符 
匹配 0 个 或 多 个 指定 的 字符 
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CH) 
符 号 使 用 说 明 
\w 匹配 0~9 或 A~z 中 任意 字符 。 如 果 不 想 匹配 这 些 字 符 ， 可 以 使 用 \W 
S 匹配 空白 字符 〈 制 表 符 、 换 行 符 或 回 车 符 ) 。 如 果 不 想 匹配 这 些 字符 ， 可 以 使 用 \S 
\t 匹配 制 表 符 
\r 匹配 回 车 符 。 如 果 要 匹配 换行 符 ， 可 以 使 用 \n 
\ 转 义 字符 。 用 于 取消 紧 随 其 后 的 字符 在 正则 表达 式 中 的 特殊 含义 























下 面 是 一 些 查找 与 替换 的 组 合 应 用 实例 ， 有 助 于 我 们 在 正则 表达 式 中 学 习 Text Wrangler。 记 
得 把 复 选 框 Grep 勾 选 上 。 如 果 蔡 换 一 栏 里 面 什么 都 没有 ， 这 表示 对 话 框 中 的 Replace 文 本 框 需要 
























































留 空 。 
查找 替换 使 用 说 明 
找 出 换行 符 〈 行 终止 符 ) 并 把 它 禁 换 成 空 。 换 种 说 法 就 是 “把 多 行 合 并 成 一 行 ” 
> - 匹配 一 行 的 开始 位 置 ， 并 要 求 后 面 至 少 有 一 个 字符 。 成 功 匹 配 的 内 容 会 被 -符号 替代 
\\rs Nena] 查找 所 有 以 \r ( 反 斜 杠 后 面 是 字母 +) 为 结束 字符 的 行 ， 然 后 用 字符 串 [end] 来 取代 。 需 要 
注意 的 是 [和 ] 在 正则 表达 式 中 有 着 特殊 的 意义 ， 所 以 在 使 用 的 时 候 需 要 对 它们 进行 转 义 














如 果 你 对 怎么 编写 正则 表达 式 有 些 发 愁 的 话 ,， 大 可 不 必 。 首 先 回想 一 下 3.2.1 节 中 提 到 的 , 包 
括 Text Wrangler 在 内 的 大 多 数 文 本 编辑 器 都 内 置 了 许多 常用 的 正则 表达 式 ， 这 足以 满足 一 般 性 的 
查找 与 替换 操作 。 所 以 ,你 可 能 会 发 现 你 并 不 需要 经 常 自己 编写 正则 表达 式 。 其 次 ， 正 是 因为 正 
则 表达 式 的 强大 功能 与 实用 性 , 无论 你 什么 时 候 需 要 它 ， 总 是 有 很 多 的 在 线 资源 可 供 利 用 ,凭借 
这 些 资 料 你 完全 可 以 写 出 复杂 的 正则 表达 式样 式 。 

我 个 人 比较 喜欢 使 用 的 正则 表达 式 资 源 是 Stack Overflow ( http://stackoverflow.com ) 和 


regular-expresions.info ( http://regular-expressions.info )。 另 外 ,通过 搜索 引擎 我 们 还 可 以 找到 许多 
正则 表达 式 的 测试 网 站 。 这 些 网 站 可 以 让 你 对 编写 出 来 的 正则 表达 式 进 行 测试 。 






























































请 小 心 使 用 在 线 的 正则 表达 式 测试 工具 ， 因 为 这 些 工 具 常 常 是 教授 某 一 种 正则 表达 式 语 
法 ， 比 如 适用 于 JavaScript、PHP 或 Python 的 语法 等 。 当 中 有 的 正则 表达 式 行为 可 能 会 和 文本 编 
辑 器 里 的 保持 一 致 ， 而 有 的 表现 则 可 能 不 同 。 根 据 操作 的 复杂 程度 不 同 ， 最 好 还 是 先 创 建 一 份 
文本 数据 副本 (或 是 抽取 一 小 部 分 样本 到 一 个 新 的 文件 中 )， 然 后 在 文本 编辑 器 中 试验 正则 表 
达 式 语法 。 












































3.24 ”文本 排序 与 去 重 处 理 


在 初试 正则 表达 式 的 功能 之 后 , 我 们 会 注意 到 文本 编辑 顺 有 时 在 别 的 功能 菜单 下 也 会 有 模式 
匹配 ， 比 如 数据 排序 和 去 除 重复 处 理 。 请 看 下 面 的 排序 对 话 框 ， 通 过 它 我 们 更 好 地 理解 正则 表达 


























32 文本 编辑 器 里 的 数据 清洗 59 











式 是 如 何 应 用 在 多 行 排序 操作 上 的 : 





Numbers match by value ^V Sorted lines to clipboard 361 
Ignore leading white space ^l Sorted lines to new document 362 
Reverse sort R Sorted lines replace selection 383 


Sort using pattern $8P 


Searching pattern: T Search String 


Case sensitive 





Sort Using: ‘% Entire match 
All sub-patterns (MV2...NN) 
Specific sub-patterns: 


Matching Expression 


Cance | TE 


在 这 个 例子 当中 , 我 们 需要 勾 选 Sort using pattern 并 输入 正则 表达 式 模式 来 进行 排序 操作 。 去 
重 处 理 的 对 话 框 也 差不多 。 你 可 以 向 编辑 器 指明 是 需要 保留 原始 行 还 是 直接 删除 它 。 更 有 意思 的 
是 , 你 还 可 以 把 重复 的 内 容 移 到 男 一 个 文件 或 剪 切 板 里 去 , 如 此 一 来 你 就 可 以 在 别 的 地 方 使 用 它 
们 了 ， 比 如 跟踪 被 删除 数据 什么 的 。 









































| q 在 做 数据 清洗 的 时 候 , 最 好 还 是 把 删除 的 行 保 存在 单独 的 文件 中 ,以 防 万 一 





( Leaving one ^1 Matching all ^2 
Numbers match by value ^V Duplicates to clipboard 381 
Ignore leading white space ^l Duplicates to new document 362 


Delete duplicate lines 383 
Unique lines to clipboard 364 
Unique lines to new document 35 
Match using pattern 36P 
Searching pattern: + 
Case sensitive 


Match Using: e. Entire match 
All sub-patterns (\1\2...\N) 
Specific sub-patterns: 





Cancel 
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3.2.5 Process Lines Containing 

Text Wrangler 还 有 一 个 方便 的 功能 叫 作 Process Lines Containing。 这 个 功能 把 查找 功能 ( 支持 
正则 表达 式 的 使 用 ) 和 逐 行 处 理 整合 到 一 起 了 , 这 样 我 们 就 可 以 把 删除 的 行 转移 到 另 一 个 文件 或 
剪 切 板 里 ， 或 是 删除 满足 匹配 条 件 的 行 。 




















Find lines containing: 


Case sensitive N Copy to clipboard 361 
Use grep 38G Copy to new document 3$2 
Patterns: f$) Delete matched lines 363 


Report results 384 








Cancel 





3.8 ”示例 项 目 


在 这 个 示例 项 目 中 ， 我 们 将 要 下 载 一 个 电子 表格 ， 并 使 用 Excel 或 是 文本 编辑 器 来 对 它 进行 
数据 清洗 ， 之 后 再 进行 简单 的 数据 分 析 。 
































3.3.1 第 一 步 : 问题 陈述 


这 个 项 目 受到 了 美国 高 等 教育 编 年 史 所 提供 的 数据 的 启发 , 高 等 教育 编 年 史 是 一 个 记录 各 大 
院 校 新 闻 事 件 的 出 版 物 。 2012 年 , 他 们 推出 了 一 个 被 称 作 “ 哪 些 学 校 与 你 的 大 学 互 为 同 级 别 院 校 ” 
的 交互 功能 。 在 这 个 功能 中 ,用 户 可 以 往 表 单 中 输入 美国 各 大 院 校 的 名 字 , 然后 就 能 看 到 一 份 融 
有 交互 功能 的 可 视 化 报告 ,报告 中 会 列 出 有 哪些 学 校 把 你 输入 的 目标 学 校 当 成 它们 的 同 级 别 院 
校 。( 同 级 别 院 校 指 的 是 在 某 些 方面 水 平 相当 的 一 些 院 校 。) 原始 数据 来 自 美国 政府 的 报告 ， 而 高 
等 教育 编 年 史 对 数据 做 了 可 视 化 处 理 并 对 公众 开放 。 

在 这 个 例子 中 ,我 们 的 附加 问题 是 : 当 X 大 学 出 现在 列表 名 单 中 时 ， 还 会 有 哪些 大 学 也 在 这 
个 列表 上 呢 ? 要 回答 这 个 问题 ， 我 们 得 先 找 出 所 有 与 X 大 学 同时 出 现在 数据 列表 中 的 大 学 ， 然 后 
统计 它们 名 字 出 现 的 次 数 。 



















































































3.3.0 ”第 二 步 : 数据 收集 
在 这 个 步 又 中 , 我 们 需要 先 完成 数据 收集 的 过 程 ， 然 后 才 可 以 进行 逐步 清洗 。 所 以 , BEFORE 
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要 谈 的 就 是 采用 哪些 操作 完成 项 目 数 据 的 收集 。 
1. 下 载 数据 


项 目 中 使 用 到 的 数据 可 以 从 http://chronicle.com/article/Who-Does-Your-College-Think/134222/ 
原文 中 下 载 ， 或 者 是 直接 访问 https:/s3.amazonaws.com/03peers/selected peers.csv.zip 下 载 。 


这 个 文件 是 经 过 压缩 处 理 的 ， 你 得 准备 好 合适 的 解压 工具 才能 解压 。 
2. 了 解数 据 


ZIP 文 件 夹 里 的 文件 扩展 名 为 .csv, 它 就 是 一 个 CSV 文 件 , 共有 1686 行 数据 , 其 中 包括 标题 行 。 
逗号 分 隔 符 把 数据 拆 分 为 两 个 部 分 : 第 一 列 是 大 学 的 名 字 , 第 二 列 是 大 学 列表 , 这 些 大 学 被 当 作 
目标 大 学 的 同 级 别 院 校 。 这 些 同 级 别 院 校 之 间 采 用 管道 字符 CIO 进行 分 隔 。 请 看 下 面 的 例子 。 























Harvard University,Yale University|Princeton Universityl|Stanford University 


示例 中 第 一 列表 示 哈 佛 大 学 是 目标 大 学 , 第 二 列表 示 耶 鲁 、 普 林 斯 顿 、 斯 坦 福 被 列 为 哈佛 大 
学 的 同 级 别 院 校 。 

















3.3.3 第 三 步 : 数据 清洗 


这 个 示例 的 目标 是 找 出 一 个 特定 的 大 学 和 同时 列 在 名 单 上 的 其 他 同 级 别 院 校 , 所 以 我 们 首先 
要 做 的 就 是 去 除 那些 没有 包含 目标 大 学 的 数据 。 处 理 完成 之 后 我 们 可 以 从 数据 文件 中 得 到 一 份 包 
含 各 个 学 校 的 清单 列表 。 走 到 这 一 步 时 , 数据 应 该 都 已 经 清洗 完毕 ,然后 要 做 的 就 是 数据 分 析 与 
可 视 化 处 理 了 。 


1. 抽取 相关 的 数据 行 


先 让 我 们 比较 两 种 数据 抽取 的 方法 : 第 一 种 是 使 用 电子 表格 应 用 程序 , 男 一 种 则 是 使 用 这 童 
介绍 过 的 文本 编辑 咒 技 术 。 


(1) 使 用 电子 表格 


用 电子 表格 应 用 程序 打开 文件 , 然后 使 用 条 件 格式 化 来 高 亮 显 示 包 含 哈佛 大 学 (或 是 你 选择 
的 其 他 学 校 ) 的 行 记 录 ， 然 后 删除 没有 高 亮 显 示 的 记录 。 


(2) 使 用 文本 编辑 器 


用 文本 编辑 器 打开 文件 ， 然 后 使 用 Process Lines Containing 找 出 包含 Harvard University ( 或 是 
你 选择 的 其 他 学 校 ) 的 行 记 录 ， 然 后 把 它们 复制 到 新 的 文件 中 。 


无 论 使 用 哪 种 方法 ， 最 终 的 处 理 结果 都 应 是 一 个 包含 26 行 记录 的 文件 ， 每 条 记录 都 包含 
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Harvard University。 





Find lines containing: 


Harvard University| 


Case sensitive 38N Copy to clipboard 381 


Use grep 38G Copy to new document 382 


Patterns: (3) 


_ Delete matched lines 383 


_ | Report results 384 


Cancel 











2. 行 数 据 转换 


文件 里 已 经 有 26 条 记录 了 , 每 条 记录 都 列举 了 好 几 所 大 学 ( 数据 很 宽 ) 我 们 希望 能 用 Python 
读 出 文件 中 的 数据 并 在 适当 的 时 机 统计 出 这 些 大 学 出 现 的 频率 。 因 此 , 我 们 要 把 这 些 数 据 调整 一 
下 ， 每 行 上 只 放 一 个 大 学 。 


想 要 让 每 行 只 包含 一 所 大 学 , 我 们 得 使 用 文本 编辑 器 并 连续 执行 三 次 查找 与 蔡 换 操作 。 首 先 

















要 做 的 是 找 出 逗号 并 把 它们 替换 成 /r( 回 车 符 )。 
e o Find 
xg o G 
g- Previous 
Replace: | 证 | Find All 
: Replace 
Matching: | | Case sensitive . | Entire word | | Grep Replace All 
Search in: | | Selected text only Wrap around Replace & Find 
接 下 来 找 出 管道 符号 (| ), 把 它们 也 替换 成 /r ( 回 车 符 )。 到 这 里 为 止 ,文件 中 一 共 包 含 749 
行 数据 。 


最 后 要 做 的 是 删除 Harvard Universitys 请 记 住 ， 我 们 只 需 关 注 与 哈佛 大 学 为 同 级 别 的 院 校 ， 
所 以 在 统计 次 数 的 时 候 不 需要 考虑 哈佛 大 学 。) 在 Text Wrangler 中 ， 我 们 可 以 把 字符 串 Harvard 
University 放 到 文本 框 Find 中 ， 并 让 文本 框 Replace 留 空 。 





应 该 是 723 。 





这 次 操作 会 删除 26 行 记录 ， 现 在 总 行 数 
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3.3.4 第 四 步 : 数据 分 析 


由 于 我 们 的 侧重 点 是 数据 清洗 , 所 以 并 不 会 在 数据 分 析 和 可 视 化 上 面 花费 过 多 的 时 间 , 在 这 
里 我 们 只 需要 使 用 下 面 的 Python 脚本 ， 找 出 那些 与 哈佛 大 学 为 同 级 的 院 校 在 列表 中 出 现 的 次 数 : 








from collections import Counter 
with open('universities.txt') as infile: 
counted - Counter(filter(None,[line.strip() for line in infile])) 
Sorted - counted.most common() 
for key,value in sorted: 
print key, ",", value 


结果 一 共 显 示 了 232 所 大 学 的 名 称 ， 以 及 这 些 大 学 被 列举 的 次 数 。 下 面 是 部 分 结果 数据 。 我 
们 对 此 的 理解 应 为 : 


当 哈 佛 大 学 被 列 为 同 级 别 院 校 时 ， 耶 鲁 大 学 一 共 被 列举 26 次 : 








Yale University , 26 

Princeton University , 25 

Cornell University , 24 

Stanford University , 23 

Columbia University in the City of New York , 22 
Brown University , 21 

University of Pennsylvania , 21 


走 到 这 一 步 ， 你 完全 可 以 赁 着 手 上 的 这 份 列 表 清 单 〈 或 是 只 截取 列表 清单 中 的 一 部 分 )， 把 
它 制 成 条 形 图 、 文 字 云 ,或 者 是 应 用 在 其 他 更 有 说 服 力 、 更 让 人 心动 的 可 视 化 实现 上 。 结 果 数 据 
本 吴 是 用 逗号 分 隔 的 , 所 以 你 可 以 直接 把 它们 粘贴 到 电子 表格 中 做 进一步 的 分 析 。 但 就 这 个 项 目 
而 言 , 我 们 已 经 回答 了 最 初 提出 的 问题 , 找到 与 给 定 目 标 大 学 互 为 同 级 别 院 校 并 且 被 列举 次 数 最 
多 的 大 学 。 
























































3.4 小 结 


在 这 一 章 中 我 们 学 会 了 一 些 非 常 实用 的 数据 清洗 技巧 ,并 使 用 了 两 个 工具 : 文本 编辑 器 和 日 
子 表格 应 用 程序 。 我 们 先 学 习 了 电子 表格 中 的 各 种 函数 ， 如 用 于 拆 分 数据 、 移 动 、 查 找 与 蔡 换 、 
格式 化 以 及 整合 数据 。 接 着 学 习 了 怎么 使 用 文本 编辑 器 , 包括 许多 内 置 功 能 ， 以 及 如 何 高 效 利 用 
查找 与 替换 功能 及 正则 表达 式 。 

在 接 下 来 的 一 章 中 , 我 们 会 把 到 目前 为 止 所 学 的 多 种 技术 结合 起 来 , 去 完成 一 些 难度 更 大 的 
文件 转换 。 当 中 有 许多 技术 都 是 基于 前 面 两 章 所 学 的 知识 ， 就 像 文本 编辑 、 正 则 表达 式 、 数 据 类 
型 、 文 件 格式 等 。 准 备 好 了 吧 ， 向 数据 清洗 进发 吧 ! 
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讲 遂 用 语言 一 一 数据 转换 























去 年 夏天 , 我 报名 参加 了 当地 一 所 毫 饪 学 校 开设 的 奶酪 制作 课程 。 第 一 堂 课 的 内 容 就 是 做 乳 
清 奶 酷 。 当 时 令 我 兴奋 的 是 ， 仅 仅 使 用 牛奶 和 脱脂 奶 就 可 以 在 一 个 小 时 内 完成 乳 清 奶 酷 的 制作 ， 
而 且 脱 脂 奶 可 以 由 牛奶 和 柠檬 计 加 工 制 成 。 在 厨房 里 , 食物 的 原料 可 以 转变 成 其 他 原料 ,进而 成 
为 餐桌 上 的 美食 。 而 在 数据 科学 厨房 中 ,我 们 也 常常 会 把 数据 从 一 种 格式 转换 成 男 一 种 格式 。 有 
时 我 们 会 把 多 个 数据 集合 并 到 一 起 ， 有 时 会 改变 数据 集 的 存储 方式 ， 这 时 就 需要 进行 数据 转换 ， 
以 便 进行 各 种 数据 分 析 。 


所 谓 通 用 语言 ， 就 是 讲 不 同 语言 的 人 在 对 话 中 采用 的 一 种 公共 标准 。 而 在 数据 转换 的 时 候 ， 
也 有 几 种 可 以 作为 公共 标准 的 数据 类 型 。 在 第 2 章 就 曾 提 到 过 一 些 。JSON 和 CSV 是 其 中 最 为 常见 
的 两 种 数据 标准 。 在 这 一 章 中 ， 我们 将 要 学 习 以 下 内 容 。 


口 如 何 利 用 软件 工具 或 语言 (Excel, Google Spreadsheets 和 phpMyAdmin ) 把 数据 快速 地 转 
换 为 JSJON 和 CSV 格 式 。 

口 如 何 编写 Python 和 PHP 程 序 来 生成 不 同 的 文本 格式 ， 并 在 这 些 文本 格式 之 间 实 现 互相 转 
换 。 

口 如 何 利 用 数据 转换 来 完成 实际 项 目 任 务 。 在 这 一 章 的 项 目 中 ,我们 将 使 用 netvizz 从 
Facebook 上 下 载 朋 友 圈 数据 ， 随 后 对 这 些 数据 进行 清洗 并 把 它们 转换 成 JSON 格 式 ， 这 样 
就 可 以 在 D3 中 做 出 可 视 化 的 社交 网 络 图 。 之 后 我 们 将 换 一 种 方案 重新 再 做 一 次 数据 清洗 ， 
并 把 数据 转换 成 Pajek 格 式 ， 这 种 格式 可 以 直接 应 用 在 一 种 名 为 networkx 的 社交 网 络 包 中 。 













































































4.1 基于 工具 的 快速 转换 


针对 少量 或 中 量 数据 的 转换 , 最 快 最 容易 的 方法 就 是 直接 使 用 一 切 可 以 加 以 利用 的 软件 和 工 
H, AIR, 我 们 使 用 的 应 用 软件 很 可 能 已 经 包含 了 数据 转换 功能 ,利用 这 些 功能 我 们 可 以 轻松 
地 得 到 需要 的 数据 格式 。 就 像 在 第 3 章 中 提 到 的 技巧 和 窍门 一 样 ， 只 要 有 可 能 ,还 是 应 该 好 好 利 
用 工具 中 所 提供 的 各 种 隐藏 的 功能 。 不 过 一 旦 遇 到 数据 量 过 大 , 或 是 超出 应 用 程序 转换 能 力 之 外 
的 情况 ， 就 得 使 用 4.2 节 和 4.3 节 中 介绍 的 编程 方案 来 解决 。 
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4.1.1 从 电子 表格 到 CSV 


把 电子 表格 数据 保存 为 分 隔 文件 非常 容易 实现 。Excel 和 Google Spreadsheets 都 在 文件 菜单 中 
提供 了 另存 为 的 功能 ， 在 这 个 功能 中 ， 我 们 只 需 选 择 CSV 格 式 即 可 。 此 外 ，Google Spreadsheets 
还 提供 把 电子 表格 存 为 Excel 文 件 和 制 表 符 分 隔 文 件 的 功能 。 但 在 保存 CSV 文 件 的 时 候 ， 有 一 些 
限制 我 们 还 是 有 必要 了 解 一 下 的 。 


口 不 论 是 使 用 Excel 还 是 Google Spreadsheets ， 在 使 用 另存 为 功能 的 时 候 ， 只 有 当前 的 工作 表 
中 的 内 容 会 被 保存 。 这 是 因为 CSV 文 件 只 能 描述 一 组 数据 集 ; 因此 ， 它 无 法 保存 来 自 多 
个 工作 表 的 数据 。 如 果 你 的 电子 表格 中 有 多 个 工作 表 的 话 ， 你 得 分 别 把 每 一 个 工作 表单 
独 保存 为 CSV 文 件 。 

口 在 使 用 这 两 种 工具 生成 CSV 文 件 的 时 候 ， 基 本 上 没有 什么 自 定义 选项 ， 比 如 Excel 只 能 以 
逗号 作为 分 隔 符 ( 对 于 CSV 文 件 来 说 ， 这 点 还 说 得 过 去 ) 来 保存 文件 ， 而 且 在 双 引 号 封 
闭 数据 和 换行 符 方面 也 不 提供 定制 功能 。 


























4.1.2 ”从 电子 表格 到 JSON 


与 CSV 格 式 相 比 ,，JSON 格 式 的 转换 要 稍微 复杂 一 些 。 虽然 Excel 没 有 提供 直接 转换 JSON 格 式 
的 功能 ， 但 有 一 些 在 线 转换 工具 倒是 声称 它们 可 以 实现 JSON 格 式 的 转换 。 


而 在 Google Spreadsheets 里 ， 提 供 了 一 个 通过 URL 就 能 访问 的 JSON 转 换 器 。 不 过 这 个 方法 也 
有 一 些 缺 陷 ， 首 当 其 冲 的 一 条 就 是 你 必须 通过 Google Spreadsheets 在 互联 网 上 发 布 你 的 文档 〈 哪 
怕 是 临时 性 的 )， 因 为 只 有 这 样 才 能 访问 它 的 JSON 版 本 数据 。 此 外 ， 你 还 需要 使 用 由 长 长 的 数字 
修饰 的 URL， 这 样 做 的 目的 是 为 了 可 以 在 互联 网 中 定位 你 的 电子 表格 文件 。 而 最 终 产生 的 JSON 
数据 中 会 含有 大 量 的 信息 ， 其 中 一 部 分 可 能 是 你 压根 儿 就 不 想 要 的 或 是 不 需要 的 。 即 便 如 此 , 还 
是 让 我 们 先 看 看 怎么 通过 一 步 步 操作 把 Google 电 子 表格 文件 转换 成 JION 格 式 的 文件 。 


1. 第 一 步 : 把 Google 电 子 表格 发 布 到 互联 网 


当 你 创建 并 保存 好 一 份 Google 电 子 表 格 文件 之 后 ， 从 File 菜 单 中 选择 Publish to the Webo 然后 
连续 点 击 通过 后 面 出 现 的 对 话 框 (我 全 部 使 用 默认 的 选项 )。 全 部 完成 之 后 ， 你 就 可 以 通过 URL 
来 访问 JSON 格 式 的 数据 了 。 


2. 第 二 步 : 创建 正确 的 URL 
通过 下 面 的 URL 样 式 ， 我 们 可 以 从 已 经 发 布 出 来 的 Google 电 子 表格 中 创建 JSON 数 据 : 













































































http://spreadsheets.google.com/feeds/list/key/sheet/public/basic?alt=json 
在 这 个 URL 中 ， 你 需要 根据 具体 的 电子 表格 对 其 中 三 项 内 容 进行 调整 。 
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O list: (可 选 ) 如 果 你 想 让 每 个 单元 格 通 过 它们 所 对 应 的 引用 ( Al、A2 等 ) 独立 地 显示 
出 来 ， 可 以 把 1ist 修 改 成 单元 格 ( cell )。 如 果 你 想 让 每 一 行 数据 作为 一 个 完整 的 实体 存 
在 ， 那 就 请 保留 URL 中 的 1ist。 

d key: TEUR PRI ey APER C TE GooglePI SSBENT M 的 长 长 的 唯一 编码 。 在 电子 表格 的 
URL 中 ， 就 像 你 在 浏览 器 中 所 看 到 的 那样 ， 这 个 key 是 位 于 两 个 斜 线 之 间 的 ， 恰 好 在 
/Spreadsheets/d 之 后 ， 请 看 下 面 的 截图 。 















































e e universities - Google She- x 


Œ £45 https://docs.google.com/spreadsheets/df1imWIAk 5KNoQHr4vFgPHdm7GXBVh22WjgAUYYHUyXSNMyJedititgid-0 


O sheet: 如 果 把 上 面 示例 中 URL 里 包含 的 单词 sheet 修 改 为 ca6， 这 表明 你 只 想 转 换 第 一 个 
工作 表 。 








odq6 是 什么 意思 呢 ? Google 使 用 编码 来 表示 每 一 个 工作 表 。 但 是 编码 并 非 以 
严格 的 数字 顺序 进行 排列 。 关 于 编码 方案 的 讨论 请 参见 Stack Overflow 上 的 讨论 ， 
其 中 包括 了 问题 和 相关 答案 ,地 址 为 http://stackoverflow.com/questions/11290337/。 





要 验证 这 个 过 程 ， 我 们 需要 创建 一 个 Google 电 子 表格 来 保存 第 3 章 中 最 后 一 个 项 目 里 生成 的 
各 个 大 学 信息 以 及 相关 的 统计 数据 。 前 三 行 数据 内 容 如 下 : 








Yale University 





Princeton University 











Cornell University 
而 我 用 来 访问 JSON 数 据 的 URL 如 下 : 


http://spreadsheets.google.com/feeds/list/1mWIAk SKNoQHr4vFgPHdm7GX8Vh22WjgAUYYH 
UyXSNM/od6/public/basic?alt=json 


把 这 段 URL 粘 贴 到 浏览 器 之 后 , 我 们 就 可 以 得 到 一 份 JSON 格 式 的 数据 ,结果 共有 231 条 记录 ， 
条 记录 的 样式 都 与 下 面 的 代码 片段 类 似 。 为 了 方便 阅读 , 我 把 这 条 记录 进行 了 格式 化 并 添加 
"m TIT: 


{ 

te 
"St":"https://spreadsheets.google.com/feeds/list/1mWIAk_5KN 
OQHr4vFgPHAM7GX8Vh22WjgAUYYHUyXSNM/od6/public/basic/cokwr" 

pi 

"updated":("$t":"2014-12-17T20:02:57.1962"], 

"category":[( 
"Scheme":"http://schemas.google.com/spreadsheets/2006", 
"term" :"http://schemas.google.com/spreadsheets/2006481list" 
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1], 
"title":( 


"type":"text", 
"St" :"Yale University " 


} 
"content":í 
"type":"text", 
"SU vo ookwri 206" 
} 
iLink" a [i 
"rel" :"self", 
"type":"application/atom+xml", 
"href":"hnttps://spreadsheets.google.com/feeds/list/1mWIAk_5KN 
OQHr4vFgPHAmM7GX8Vh22WjgAUYYHUyXSNM/od6/public/basic/cokwr" 
| 
} 


即便 经 过 了 重新 格式 化 ，JSON 还 是 比较 长 ， 其 中 有 很 多 信息 不 是 我 们 想 要 关注 的 。 但 不 管 
怎么 说 , 我 们 已 经 成 功 地 生成 了 功能 齐全 的 JSON 数 据 。 假如 我 们 需要 使 用 程序 来 处 理 这 个 JSON， 
所 有 与 电子 表格 相关 的 附加 信息 都 可 以 忽略 掉 , 只 有 标题 和 内 容 实体 里 的 St 字段 对 应 的 值 ( 如 上 
例 中 的 Yale University 和 _cokwr: 26) 才 是 需要 处 理 的 。 这 些 值 在 上 面 的 JSON 示 例 中 很 容 
易 找 到 。 如 果 你 还 想 问 是 否 有 办 法 把 电子 表格 转换 成 CSV 数 据 ， 进 而 转换 成 JSON 数 据 ， 答 案 是 
肯定 的 。 我 们 将 在 4.2 节 和 4.3 节 中 进行 详细 说 明 。 
































4.1.3 ”使 用 phpMyAdmin 从 SQL 语句 中 生成 CSV 或 JSON 


在 这 一 节 中 ， 我 们 要 讨论 如 何在 不 借助 任何 编程 方法 的 条 件 下 ， 直 接 从 MySQL 数 据 库 中 导 
出 JSON 和 CSV 这 两 种 格式 的 数据 。 


首先 ，phpMyAdmin 是 一 种 使 用 度 较 高 的 基于 Web 的 MySQL 数 据 库 客 户 端 程序 。 如 果 使 用 这 
个 工具 的 高 级 版 本 ， 我 们 可 以 将 一 整 张 表 的 数据 或 是 查询 出 来 的 结果 数据 直接 输出 为 CSV 或 
JSON 格 式 的 文件 。 这 回 我 们 还 是 使 用 第 1 章 中 提 到 的 Enron 数 据 库 。 从 下 面 的 截图 中 可 以 看 出 ， 
在 Export 标 签 中 可 以 选择 JSON 作 为 数据 表 employeelist 的 目标 格式 (也 可 以 选择 CSV 作 为 目标 格 
X): 
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数据 转换 


c localhost @ enron  @ employeelist 


司 Browse YW Structure | | SQL -, Search  Xé Insert [3 Export 











Exporting rows from "employeelist" table 


Export Method: 





© Quick - display only the minimal options 


Custom - display all possible options 


Format: 








(ISON 2) 





( Go | 














使 用 phpMyAdmin 输 出 JSON 格 式 的 数据 表 


输出 查询 结果 的 做 法 与 输出 数据 表 很 相似 ， 只 是 不 能 使 用 屏幕 上 方 的 Export 标 签 ， 而 是 在 i 
行 完 SQL 查询 之 后 使 用 页 面 下 方 Query results operations 里 的 Export， 请 见 下 图 。 





| 





[i 











| Query results operations | 





È Print view (&) Print view (with full texts) «à. Export 














使 用 phpMyAdmin 输 出 查询 结果 
为 了 测试 一 下 输出 功能 ， 我 们 可 以 使 用 下 面 的 查询 语句 来 检索 数据 表 employeelist: 
SELECT concat(firstName, " ", lastName) as name, email id 


FROM employeelist 
ORDER BY lastName; 


在 输出 JSON 格 式 的 时 候 ， 从 phpMyAdmin 中 我 们 会 看 到 151 条 格式 与 下 面 类 似 的 数据 : 
{ 


"name": "Lysa Akin", 
"email id": "lysa.akinGenron.com" 


} 
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phpMyAdmin 是 一 款 很 好 用 的 工具 ， 它 可 以 高 效 地 实现 适量 的 数据 转换 ， 这 些 数据 可 以 来 自 
MySQL 数 据 表 ， 或 是 一 条 查询 语句 的 结果 。 如 果 你 使 用 的 是 别 的 RDBMS ， 它 们 很 有 可 能 也 有 一 
些 专属 的 格式 化 选项 ， 而 这 一 切 都 得 由 你 去 探索 发 掘 。 


此 外 , 还 有 一 种 可 以 完全 撤 弃 phpMyAdmin 的 方法 ,只 需 使 用 MySQL 命 令 行 就 能 以 我 们 自 定 
义 的 格式 输出 CSV 文 件 : 

SELECT concat(firstName, " ", lastName) as name, email id 

INTO OUTFILE 'enronEmployees.csv' 

FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' 


LINES TERMINATED BY '^n' 
FROM employeelist; 


通过 上 面 的 语句 我 们 可 以 得 到 指定 名 字 (employees.csv) 的 逗号 分 隔 文 件 ， 这 个 文件 会 
在 当前 文件 夹 中 生成 。 

那 能 不 能 以 同样 的 方法 生成 JSON 数 据 呢 ? 很 遗憾 ， 这 种 方法 是 不 支持 JSON 格 式 输出 的 。 如 
果 想 要 JSON 格 式 ， 要 么 选择 前 面 提 到 的 phpMyAdmin 解 决 方案 ， 要 么 使 用 PHP 或 是 Python 来 实现 
你 自己 的 方案 。 以 编程 方式 实现 的 解决 方案 会 在 接 下 来 的 几 节 中 讨论 ， 请 继续 阅读 后 面 的 内 容 。 






























































4.2 使 用 PHP 实现 数据 转换 


在 第 2 章 中 我 们 曾 讨论 过 JSON 的 数字 格式 , 当时 我 们 通过 一 个 PHP 脚 本 , 演示 了 连接 数据 库 、 
运行 查询 、 从 查询 结果 构建 PHP 数 组 ， 并 在 最 后 把 JSON 格 式 的 结果 数据 输出 到 屏幕 上 。 在 这 一 
PE, 我们 先 对 前 面 例子 的 功能 做 一 些 扩 展 , 直接 把 数据 输出 成 CSV 格 式 的 文件 而 不 是 输出 到 屏 
幕 上 。 然 后 再 演示 如 何 使 用 PHP 读 取 JSON 文 件 并 把 它 转换 成 CSV 文 件 ,最 后 再 演示 反 向 转换 操作 。 





























4.2.1 使 用 PHP 实现 SQL 到 JSON 的 数据 转换 


在 这 一 节 中 ， 我 们 要 用 PHP 脚 本 连接 snzon 数 据 库 ， 然 后 运行 SQL 查询 语句 把 查询 结果 输出 
为 JSON 格 式 的 文件 。 那 我 们 为 什么 要 使 用 PHP 脚 本 来 蔡 代 phpMyAdmin 呢 ? 其 中 一 个 原因 就 是 这 
种 方案 能 够 让 我 们 在 输出 数据 之 前 多 做 一 些 额外 的 处 理 ， 此 外 ， 如 果 我 们 预期 的 数据 量 超过 了 
Web 应 用 程序 处 理 能 力 之 外 ， 也 需要 使 用 这 种 方案 。 

<?php 

// 连接 到 数据 库 ， 设 置 查询 语句 ， 运 行 查询 语 向 

$dbc = mysqli_ connect('localhost','username',' 'password','enron') 

or die('Error connecting to database!' . mysqli error()); 











$select query = "SELECT concat(firstName, NV" VN", lastName) as 
name, email id FROM employeelist ORDER BY lastName"; 


$select result = mysqli query ($dbc, $select query); 
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if (!$select result) 
die ("SELECT failed! [$select query]" . mysqli error()); 


// ----JSON 格 式 数据 的 输出 ---- 
// 构建 一 个 适合 输出 json 数 据 的 新 数组 


$counts = array(); 
while(S$row = mysqli fetch array ($select result)) 
{ 
// 将 数据 添加 到 json 数 组 中 
array push($counts, array('name' => $row['name'], 


'email id' => $row['email id'])); 
} 
// 将 查询 结果 以 json 格 式 进行 编码 处 理 


$json formatted = json encode($counts); 
//| 写 入 json 文 件 


file put contents("enronEmail.json", $json formatted); 
?> 


这 上段 代码 中 file_put_contents () 用 于 指定 最 终 输出 的 JSON 文 件 位 置 。 


4.2.2 使 用 PHP 实现 SQL 到 CSV 的 数据 转换 


下 面 的 代码 演示 了 如 何 使 用 PHP 文 件 输出 流 从 SQL 查 询 结 果 中 创建 CSV 文 件 。 我 们 需要 把 下 

















面 的 代码 保存 为 .php 文 件 之 后 放 到 网 络 服务 器 上 ， 并 确保 文件 所 在 的 目录 支持 脚本 运行 ， 然 后 
通过 浏览 器 请 求 这 个 文件 。 访问 时 CSV 文 件 就 会 自动 开始 下 载 : 
<?php 
// 连接 到 数据 库 ， 设 置 查询 语句 ， 运 行 查询 语 向 
$dbc = mysqli_ connect('localhost','username','password','enron') 
or die('Error connecting to database!' . mysqli_ error()); 
$select query = "SELECT concat (firstName, M" NV", lastName) as name, email id FROM 


employeelist ORDER BY lastName"; 
$select result = mysqgli query($dbc, $select query); 


if (!$select result) 
die ("SELECT failed! [$select query]" . mysqli error()); 


// ----CSV 格 式 数据 的 输出 ---- 

// 设置 文件 流 

sfile = fopen('php://output', 'w'); 

if ($file && $select result) 

{ 
header('Content-Type: text/csv'); 
header('Content-Disposition: attachment; 
filename-"enronEmail.csv"'); 
// 将 每 行 结果 数据 都 以 csv 格 式 写 到 文件 中 
while($row = mysqli fetch assoc($select result)) 


( 
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fputcsv ($file, array_values ($row)); 
} 
} 


输出 文件 的 内 容 格 式 如 下 ( 这 里 只 是 截取 前 三 行 数据 ): 


"Lysa Akin",lysa.akin@enron.com 
"Phillip Allen",k..allen@enron.com 
"Harry Arora",harry.aroraQGenron.com 


如 果 你 想 知道 Phillip 的 电子 邮箱 中 是 否 包 含 两 个 圆 点 符号 ， 可 以 通过 下 面 的 查询 语句 快速 地 
从 Enron 数 据 库 中 找 出 这 样 的 数据 : 
SELECT CONCAT(firstName, " ", lastName) AS name, email id 


FROM employeelist 
WHERE email id LIKE "$..2" 




















ORDER BY name ASC; E 
结果 显示 一 共有 24 条 记录 的 电子 邮件 地 址 包含 两 个 圆 点 符号 。 


4.2.3 使 用 PHP 实现 JSON 到 CSV 的 数据 转换 
下 面 的 代码 可 以 读 取 JSON 文 件 并 把 它 转换 成 CSV 文 件 : 


«?php 
// 读 取 文件 
$json = file get contents("outfile.json"); 
// 将 JSON 格 式 数据 转换 成 关联 数组 
Sarray = json decode ($json, true); 
// 打开 文件 流 
$file = fopen('php://output', 'w'); 
header('Content-Type: text/csv'); 
header('Content-Disposition: attachment; 
filename-"enronEmail.csv"'); 
// 循环 数组 数据 ， 并 把 每 行者 内容 都 写 入 到 文件 中 
foreach ($array as $line) 
t 

fputcsv ($file, $line); 
} 


这 段 代码 创建 了 一 个 与 前 面 例子 一 样 的 CSV 文 件 。 这 里 需要 注意 函数 file_get_ 
contents () 的 用 法 ， 它 会 把 文件 的 内 容 以 字符 串 形式 保存 到 内 存 中 ， 如 果 你 要 查找 的 文件 体积 
很 大 的 话 ， 建 议 考 虑 使 用 fread() 、fgets () 和 fclose() 等 函数 。 








4.2.4 使 用 PHP 实现 CSV 到 JSON 的 数据 转换 

















还 有 一 种 比较 常见 的 任务 是 读 取 CSV 文 件 并 把 其 中 的 内 容 转换 成 JSON 格 式 。 在 大 多 数 情况 
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F, CSV 的 第 一 行 数据 保存 的 是 标题 信息 。 标题 行 会 列 出 文件 中 每 一 个 字段 的 名 字 , 在 构造 JSON 
文件 的 时 候 ， 我 们 需要 利用 这 些 字段 信息 来 充当 JSON 结 构 中 的 属性 : 


后 
E: 











pam! 


«?php 

sfile = fopen('enronEmail.csv', 'r'); 
$headers = fgetcsv($file, 0, ','); 
$complete - array(); 


while ($row = fgetcsv(S$file, 0, ',')) 
{ 
$complete[] = array combine($headers, $row); 
} 
fclose($file); 
$json formatted = json encode ($complete); 


file put contents('enronEmail.json',$json formatted); 
?» 























代码 输出 的 结果 是 基于 前 面 创 建 的 enronEmailcsv 文 件 ，JSON 的 属性 取 自 标题 行 ， 最 终 的 结 
果 数 据 如 下 : 


[("name":"Lysa Akin","email id":"1ysa.akineenron.com" }， 
("name":"Phillip Allen","email id":"k..allenGenron.com"), 
("name":"Harry Arora","email id":"harry.aroraGenron.com")..] 


实际 的 CSV 文 件 中 一 共 包 含 151 条 记录 ， 这 里 只 截取 前 三 行 。 
4.3 ”使 用 Python 实现 数据 转换 
在 这 一 节 里 ,我 们 要 讨论 如 何 使 用 Python 来 完成 CSV 和 JSON 之 间 的 转换 。 在 列举 的 例子 当中 ， 


我 们 将 寻求 各 种 不 同 的 方式 来 完成 目标 任务 , 有 可 能 是 借助 特殊 的 安装 包 , 也 有 可 能 只 使 用 纯粹 
的 Python 代码 。 








4.3.1 使 用 Python 实现 CSV 到 JSON 的 数据 转换 


如 果 使 用 Python 的 话 , 我 们 可 以 使 用 多 种 方法 来 把 CSV 数 据 转 换 成 JSON 格 式 。 而 让 人 最 容易 
想到 的 就 是 使 用 内 置 的 csv 和 json 库 。 假 设 我 们 的 CSV 文 件 内 容 如 下 (这 里 只 截取 了 前 三 行 数 
据 ): 




















name,email id 

"Lysa Akin",lysa.akinGenron.com 
"Phillip Allen",k..allenGenron.com 
"Harry Arora",harry.aroraG8enron.com 


我 们 可 以 使 用 Python 来 写 一 个 程序 读 取 行 信息 并 把 它们 转换 成 JSNON 格 式 : 


import json 
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import csv 


# 读 取 CSV 文 件 
with open('enronEmail.csv') as file: 
file csv = csv.DictReader(file) 
output e "p" 
# 处 理 每 一 个 目录 
for row in file csv: 
# 两 个 实体 之 间 加 入 运 号 
output += json.dumps (row) 
output = output.rstrip(',') 
# 把 文件 写 入 磁盘 中 去 


十 
$ 


Kip 


f = open('enronEmailPy.json','w') 
f.write (output) 
t.close() 








输出 的 JSON 结 果 如 下 (这 里 只 截取 前 两 行 记 录 ): 


[("email id": "lysa.akinGenron.com", "name": "Lysa Akin"), 
("email id": "k..allenGenron.com", "name": "Phillip Allen"),..] 


使 用 这 个 方法 的 好 处 是 简单 直接 , 我 们 不 需要 安装 额外 的 特殊 库 或 是 命令 行 工 具 ， 只 需要 基 
本 的 读 (CSV) 写 (JSON ) 操作 就 能 解决 问题 。 

















H 








4.3.2 ”使 用 csvkit 实现 CSV 到 JSON 的 数据 转换 


第 二 种 把 CSV 转 换 成 JSON 的 方法 需要 依赖 一 个 叫 作 csvkit 的 Python 工具 包 。 要 想 安装 csvkit， 
我 们 需要 使 用 Canopy， 首 先 启 动 Canopy 终 端 窗口 ( 通过 菜单 Tools | Canopy Terminal )， 然 后 运行 
pip install csvkit 命 令 。 命 令 结束 后 ，csvkit 以 及 它 要 依赖 的 全 部 内 容 都 会 安装 完毕 。 这 
个 时 候 , 你 可 以 在 Python 程序 中 通过 import csvkit 访 问 csvkit, 或 者 是 像 下 面 这 样 通 过 命令 行 
访问 : 





























csvjson enronEmail.csv > enronEmail.json 


利用 上 面 的 命令 和 输入 参数 enronEmail.csv， 我 们 可 以 快速 、 轻 松 地 输出 JSON 版 本 的 数 
据 文件 enronEmail.csvkit.json。 


男 外 ，csvkit 包 中 还 有 一 些 其 他 有 用 的 命令 行程 序 ， 比 如 csvcut， 它 可 以 从 CSV 文 件 中 提取 
任意 指定 字段 中 的 数据 , 还 有 csvformat, 它 可 以 用 于 改变 CSV 文 件 中 的 分 隔 符 或 换行 符号 , 或 
是 与 此 相似 的 工作 。csvcut 程 序 的 长 处 在 于 你 可 以 根据 自己 的 需要 来 定制 想 要 处 理 的 数据 。 还 
有 一 点 要 提 的 是 , 不 论 使 用 的 是 工具 包 中 的 哪个 命令 行程 序 , 它们 都 支持 以 重 定向 的 方式 创建 新 
文件 。 下 面 的 命令 行 以 bigFile.csv 为 参数 ， 分 别提 取 了 第 一 列 和 第 三 列 数据 ， 并 把 结果 保存 
到 一 个 全 新 的 CSV 文 件 : 























csvcut bigFile.csv -c 1,3 > firstThirdCols.csv 
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M 
| Q 关于 csvkit 文 档 、 下 载 与 示例 的 更 多 信息 ， 请 访问 http://csvkit.rtfd.org/。 | 


4.3.3 ”使 用 Python 实现 JSON 到 CSV 的 数据 转换 
使 用 Python 读 取 JSON 文 件 并 将 它 转 换 成 CSV 文 件 的 过 程 非常 简单 : 





import json 
import csv 


with open('enronEmailPy.json', 'r') as f: 
dicts - json.load(f) 
out - open('enronEmailPy.csv', 'w') 


writer - csv.DictWriter(out, dicts[0].keys()) 
writer.writeheader() 

writer.writerows (dicts) 

out.close() 


这 个 程序 利用 一 个 名 为 enronEmailPyjson 的 JSON 文 件 ， 输 出 一 个 对 应 的 CSV 版 本 结果 文件 
enronEmailPycsv， 其 中 的 标题 行 信息 来 自 于 JSON 中 的 属性 。 





4.4 ”示例 项 目 


在 这 一 章 中 , 我 们 集中 精力 研究 了 如 何 把 数据 从 一 种 格式 转换 成 男 一 种 格式 , 这 在 数据 清洗 
中 是 很 常见 的 ， 常 常 在 数据 分 析 项 目的 其 他 工作 之 前 进行 。 我 们 人 研究 的 重点 是 常见 的 文本 格式 
(CSV 和 JSON ) 和 常见 的 数据 存储 位 置 ( 文件 和 SQL 数 据 库 )。 现 在 该 是 扩展 数据 转换 基础 知识 
的 时 候 了 , 接 下 来 我 们 将 以 一 个 实际 的 项 目 为 出 发 点 来 看 看 怎么 处 理 非 标 准 化 的 情况 一 一 但 还 是 
针对 文本 数据 格式 。 


在 这 个 项 目 中 , 我 们 要 开展 一 项 关于 Facebook 社 交 网 络 的 调研 工作 。 因 此 ,我 们 将 要 完成 以 
下 内 容 。 


(1) 用 netvizz 下 载 Facebook 的 社交 网 络 ( 好 友 以 及 好 友之 间 的 关系 ) 并 把 这 些 数据 保存 为 以 
文本 为 基础 的 地 理 数据 格式 (GDEF )。 


(2) 构建 一 个 关于 Facebook 社 交 网 络 的 图 形 ， 其 中 每 一 个 人 都 用 一 个 节点 表现 ， 人 与 人 之 间 
的 关系 使 用 连接 线 ( 也 称 为 边 ) 来 表现 。 要 想 完成 这 项 工作 , 我 们 需要 使 用 D3 JavaScript 图 形 库 。 
不 过 这 个 库 只 能 接受 JSON 格 式 的 数据 。 


(3) 计算 社交 网 络 的 度量 标准 , 比如 网 络 大 小 ( 也 成 为 度 )、 网 络 中 两 个 人 之 间 的 最 短路 径 等 。 
在 这 项 工作 中 我 们 需要 使 用 Python 的 networkx 包 。 这 个 包 能 够 接受 的 数据 格式 是 基于 文本 的 
Pajek。 
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项 目的 主要 目标 是 演示 如 何 根据 需求 在 不 同 的 数据 格式 (GDF、Pajek 和 JSON ) 之 间 进 行 调 
TU, 完成 从 一 种 数据 格式 到 另 一 种 数据 格式 的 转换 。 次 要 目标 则 是 为 读者 提供 足够 的 示例 代码 和 
指导 ， 完 成 小 规模 的 社交 网 络 分 析 。 





4.4.1 第 一 步 : 下 载 GDF 格式 的 Facebook 数据 


在 这 个 步 又 中 ， 你 需要 登录 Facebook 账 号 ， 然 后 使 用 Facebook 的 搜索 功能 查找 netvizz 应 用 ， 
或 是 直接 访问 netvizz 的 地 址 : https://apps.facebook.com/netvizz/ 























在 netvizz 页 面 上 , 点击 personal network。 这 个 页 面 上 的 start 按 钮 会 提供 两 种 格式 的 下 载 文件 : 
一 种 是 含有 朋友 信息 以 及 他 们 之 间 关 系 的 GDF 格 式 文件 ， 另 一 个 是 制 表 符 分 隔 值 (TSV ) 格式 的 
统计 文件 。 在 这 个 项 目 里 , 我 们 主要 还 是 关注 GDF 文 件 。 点 击 start 按 钮 , 在 新 页 面 中 右键 点 击 GDF 
文件 并 把 它 保存 到 本 地 磁盘 上 ， 如 下 图 所 示 。 


























netvizz v1.01 


getting connections (296): 
0 50 100 150 200 250 


download 
296 nodes, 2260 edges 


Your gdf file (right click, save as...). 


Your tab file (right click, save as...). 








Facebook 的 netvizz 应 用 可 以 让 我 们 以 GDF 文 件 格式 下 载 自 己 的 社交 网 络 


在 下 载 文件 时 最 好 重新 为 文件 起 一 个 稍微 短 一 些 的 名 字 。( 我 把 下 载 文件 命名 为 personal.gdf 
并 保存 在 项 目 所 在 的 目录 中 。) 




















4.4.2 第 二 步 : 在 文本 编辑 器 中 查看 GDF 文件 





用 你 的 文本 编辑 器 打开 下 载 文件 (我 使 用 的 是 Text Wrangler )， 然 后 从 以 下 几 个 方面 观察 文 
件 中 的 内 容 。 


(1) 文件 内 容 分 为 两 个 部 分 : 节点 和 边 。 


(2) 第 一 部 分 的 节点 信息 出 现在 单词 hodqedef 之 后 。 从 节点 列表 中 我 们 可 以 找 出 好 友 清 单 以 
及 他 们 之 间 的 基本 信息 (如 性 别 和 Facebook 中 的 ID 号 )。 节 点 的 排列 顺序 是 按照 每 个 人 加 入 
Facebook 的 时 间 组 织 起 来 的 。 
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(3) 第 二 部 分 的 节点 信息 表现 了 好 友之 间 的 边 或 联系 。 有 时 候 ， 这 些 东西 也 被 称 为 链接 。 这 
部 分 信息 都 是 伴随 着 单词 eqgedef 出 现 的 。 边 描述 了 我 的 好 友 中 哪些 人 互 为 好 友 。 


下 面 是 节点 数据 的 样本 : 


nodedef»name VARCHAR, label VARCHAR, sex VARCHAR, locale 
VARCHAR, agerank INT 
1234, Bugs Bunny,male,en_US,296 
2345,Daffy Duck,male,en_US,295 
3456,Minnie Mouse, female, en_US,294 











下 面 是 边 数 据 的 样本 。 其 中 显示 了 Bugs (1234) 和 Daffy (2345) 互 为 好 友 ， 同 时 Bugs 
也 是 Minnie (3456 ) 的 好 友 : 





edgedef»nodel VARCHAR,node2 VARCHAR 
1234,2345 
1234,3456 
3456,9876 


4.4.3 第 三 步 : 从 GDF 格式 到 JSON 格式 的 转换 


在 接 下 来 的 任务 中 我 们 要 利用 D3 构建 一 张 社交 网 络 的 数据 展现 图 。 首 先 ， 我 们 需要 多 看 看 
一 些 用 D3 创建 社交 网 络 的 示例 ， 比 如 D3 的 示例 集 ，https://github.com/mbostock/d3/wiki/Gallery 和 
http://christopheviau.com/d31ist/。 








这 些 社交 网 络 图 的 例子 全 都 依赖 于 JSON 数 据 。 每 个 JSON 格 式 的 数据 文件 都 包含 了 节点 和 边 
的 信息 。 下 面 是 其 中 一 份 JSON 文 件 的 示例 : 





("nodes": [ 
("name":"Bugs Bunny"j, 
("name":"Daffy Duck"j, 
("name":"Minnie Mouse")], 
"edges": [ 
("source": O,"target": 2}, 
("source": 1,"target": 3), 
("source": 2,"target": 3)]) 


JSON 代 码 中 最 为 重要 的 内 容 就 是 与 GDF 格 式 类 似 的 两 大 部 分 : 节点 和 边 。 节 点 就 是 每 个 人 
的 名 字 , 边 则 是 多 组 朋友 之 间 的 关系 。 虽 然 这 些 信 息 没 有 使 用 Facebook 的 ID 编码 , 但 每 组 数据 都 
使 用 了 它们 在 节点 列表 中 的 索引 信息 ， 其 中 的 索引 值 始 于 0。 





















































此 时 此 刻 我 们 是 没有 JSON 文 件 的 ， 只 有 GDF 文 件 。 那 怎么 才能 得 到 JSON 格 式 的 文件 呢 ? AF 
细 看 看 GDF 文 件 , 会 发 现 里 面 的 内 容 就 好 像 是 两 个 被 弗 贴 在 一 起 的 CSV 文 件 , 彼此 首尾 相连 。 这 
一 章 前 面 我 们 就 知道 ， 从 CSV 格 式 到 JSON 格 式 的 转换 方法 不 止 一 种 。 


























因此 ， 我 们 可 以 自己 动手 把 GDF 转 换 成 CSV 文 件 ， 然 后 再 把 CSV 转 换 成 JSON 文 件 。 











4.4 示例 项 目 T] 





等 等 ， 如 果 D3 示 例 中 的 JSON 数 据 ， 与 我 们 下 载 下 来 准备 用 于 构建 社交 网 络 
展现 图 的 JSON 文 件 不 一 样 怎么 办 ? 在 有 的 D3 社 交 网 络 可 视 化 的 示例 中 ， 你 会 发 
现 数据 中 的 节点 和 链接 有 许多 人 额外 的 值 ,比如 它们 会 使 用 一 些 额 外 的 属性 来 表现 
不 同 的 大 小 、 悬 浮 效 果 或 颜色 的 变化 ， 具 体 示 例 可 以 参考 http:/bl.ocks.org/ 
christophermanning/1625629。 这 个 可 视 化 实现 表现 的 是 芝加哥 付费 政治 说 客 之 间 
的 关系 。 在 该 示例 中 ， 程 序 代码 会 根据 JSON 文 件 的 内 容 决 定 代表 节点 的 圆 形 图 
案 大 小 ， 以 及 和 鼠标 停留 在 节点 上 时 显示 的 文字 内 容 。 图 形 效 果真 的 很 不 错 ， 但 实 
现 起 来 也 确实 复杂 。 由 于 我 们 的 主要 目标 是 数据 清洗 ， 所 以 这 一 切 都 可 以 从 简 ， 
这 些 额外 的 设置 不 会 出 现在 演示 示例 中 。 不 过 你 也 不 用 太 担 心 ， 我 们 还 是 会 把 
D3 图 表 创 建 出 来 的 ! 


要 把 GDF 文 件 转换 成 我 们 需要 的 JSON 格 式 ， 需 要 完成 以 下 步骤 。 





(1) 使 月 




















昌文 本 编辑 融 把 personal.gdf 文 件 拆 分 成 两 个 文件 ，nodes.gdffllinks.gdf。 


(2) 根据 最 终 要 生成 的 SON 文 件 格 式 修改 每 个 文件 的 标题 行 : 


id,name,gender,lang,num 

1234,Bugs Bunny,male,en, US,296 
2345,Daffy Duck,male,en US,295 
9876,Minnie Mouse,female,en, US,294 


source, target 
1234,2345 
1234,9876 
2345,9876 


(3) 使 用 工具 csvcut (之 前 提 到 的 csvkit 中 的 一 部 分 ) 从 nodes.gdf 文 件 提取 第 一 个 和 第 二 个 字 
段 ， 并 把 结果 重 定向 到 一 个 名 为 nodesCut.gdf 的 新 文件 中 : 
csvcut -c 1,2 nodes.gdf > nodesCut.gdf 
(4) 现在 我 们 需要 为 每 组 边 信息 指派 一 个 索引 值 ， 用 来 替代 原来 的 Facebook ID 值 。 索 引 的 作 
用 就 是 通过 节点 在 列表 中 的 位 置 来 定位 节点 。 在 尽 可 能 减少 重 构 的 基础 上 , 我 们 需要 对 数据 做 一 
些 转 换 ， 让 它们 可 以 比较 容易 地 满足 D3 示例 中 的 要 求 。 因 此 ， 我 们 需要 把 数据 从 下 面 的 格式 : 




















source,target 


1234,2 
1234,9 
2345,9 


转换 成 : 


345 
876 
876 


source, target 


0,1 
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0,2 
1,2 


t 








下 面 的 Python 脚本 可 以 用 来 自动 创建 这 些 索引 信息 : 


import csv 


# 读 取 节 点 信息 

with open('nodesCut.gdf', 'r') as nodefile: 
nodereader - csv.reader (nodefile) 
nodeid, name - zip(*nodereader) 


E 读 取 边 数据 中 的 原始 节点 与 目标 节点 

with open('edges.gdf', 'r') as edgefile: 
edgereader - csv.reader(edgefile) 
Sourcearray, targetarray - zip(*edgereader) 

slist = list(sourcearray) 

tlist = list(targetarray) 


E 找 出 原始 节点 和 目标 节点 所 对 应 的 节点 索引 值 
for n,i in enumerate (nodeid): 
for j,s in enumerate(slist): 
LEGS usais 
slist[j]sn-1 
for k,t in enumerate(tlist): 
QT. d MeELOLS 
tlist[k]-n-1 
# 以 索引 值 的 形式 重新 编写 边 信息 





with open ('edgelistIndex.csv', 'wb') as indexfile: 


iwriter = csv.writer(indexfile) 
for c in range(len(slist)): 
iwriter.writerow([ slist[c], tlist[c]]) 


(5) 现在 再 回 到 nodesCut.csv 文 件 中 ， 删 除 ia 字 段 : 


csvcut -c 2 nodesCut.gdf > nodesCutName.gdf 











(6) 5S — S Python] JE 8E c Pea HIT D3AEFI 





import csv 
import json 


+ 读 取 节 点 信息 

with open('nodesCutName.gdf') as nodefile: 
nodefile csv - csv.DictReader (nodefile) 
noutput - '[' 
ncounter - 0; 


# 处 理 字典 行 

for nrow in nodefile csv: 
# 查找 节点 名 字 中 的 单 引 号 字符 ， 比 如 O'Connor 
nrow["name"] = \ 
str(nrow["name"]).replace("'","") 


# 在 实体 数据 中 间 放 置 一 个 过 号 





的 完整 JSON 文 件 : 
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if ncounter > 0: 
noutput +S ',' 
noutput += json.dumps (nrow) 
ncounter += 1 
noutput += ']' 


# 将 新 的 数据 文件 写 入 磁盘 


f = open('complete.json','w') 
f.write('(') 
f.write('\"nodes\":' ) 
f.write(noutput) 

* 读 取 边 信息 


with open ('edgelistIndex.csv') as edgefile: 
edgefile csv = csv.DictReader (edgefile) 
eoutput = '[' 
ecounter - 0; 
# 处 理 字典 行 
for erow in edgefile csv: 
E 确保 数字 类 型 的 数据 以 数字 格式 保存 ， 而 不 是 字符 串 格式 
for ekey in erow: 
try: 
erow[ekey] = int(erow[ekey]) 
except ValueError: 
# 非 int 的 时 候 
pass 
# 在 实体 数据 中 间 放 置 一 个 各 号 
if ecounter > 0: 
eoutput += ',' 
eoutput += json.dumps (erow) 
ecounter += 1 
eoutput += ']' 





# 将 新 文件 写 入 到 磁盘 中 
f.write(',') 
f.write('N"linksN":') 
f.write(eoutput) 
f.write('J') 
f.close() 


4.4.4 第 四 步 : 构建 D3 图 


这 一 节 将 演示 如 何 使 用 SON 文 件 来 构建 一 张 D3 力 导向 图 。 示 例 代 码 来 自 于 D3 网 站 。 每 个 节 
点 都 用 一 个 圆圈 表示 ， 当 我 们 把 鼠标 放 到 节点 上 方 的 时 候 , 对 应 的 人 物 名 字 就 会 以 提示 形式 显示 
出 来 : 


<!DOCTYPE html» 
«1-- 此 代码 基于 https://gist.github.com/mbostock/4062045 上 的 D3 力 时 向 图 示例 --> 





<meta charset="utf-8"> 
<style> 
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.node ( 
Stroke: #fff; 
stroke-width: 1.5px; 


.link ( 
Stroke: 4999; 
stroke-opacity: .6; 


</style> 

<body> 

<!-- 确保 你 下 载 了 D3 库 ， 并 已 保存 在 本 地 --> 
«script src-"d3.min.js"»«/script» 
«script» 


var width - 960, height - 500; 

var color = dà3.scale.category20 (0); 

var force - d3.layout.force() 
.charge(-25) 
.linkDistance(30) 
.Size([width, height]); 


var svg - d3.select("body").append("svg") 
.attr("width", width) 
.attr("height", height); 


d3.json("complete.json", function(error, graph) ( 
force 
.nodes (graph.nodes) 
.links (graph.links) 
"Start(); 


var link = svg.selectAll(".link") 
.data(graph.links) 
.enter().append("line") 
.attr("class", "link") 
.Style("stroke-width", function(d) ( return Math.sqrt (d.value); 


var node - svg.selectAll(".node") 
.data(graph.nodes) 
.enter().append("circle") 
.attr("class", "node") 
.attr("r",.5) 
.sStyle("fill", function(d) ( return color(d.group); )) 
.call(force.drag); 


node.append("title") 
.text(function(d) ( return d.name; }); 


force.on("tick", function( 
link.attr("x1", function 
.attr("y1", function 
.attr(*x2", function 


( return d.source.y; }) 
( return d.target.x; y) 


) 
( 
( 
( 


{ 
d) { return d.source.x; }) 
d) 
d) 


EM 
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.attr("y2", function(d) ( return d.target.y; )); 


node.attr("cx", function(d) ( return d.x; }) 
.attr("cy", function(d) ( return d.y; )); 
)); 
)); 


</script> 


下 面 是 社交 网 络 的 截图 。 鼠 标 正 处 于 其 中 一 个 节点 的 上 方 , 所 以 从 岁 中 我 们 可 以 看 到 这 个 节 
点 的 提示 信息 (人物 名 字 )。 
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由 D3 构 建 出 来 的 社交 网 络 





4.4.5 第 五 步 : 把 数据 转换 成 Pajek 格式 

到 目前 为 止 ， 我 们 已 经 成 功 地 把 GDF 文 件 转换 成 CSV 文 件 、JSON 文 件 ， 并 用 它 创 建 了 一 张 
D3 图 。 在 接 下 来 的 两 个 步 又 里 ， 我 们 将 继续 实现 下 一 个 目标 ， 把 现 有 的 数据 转换 成 可 用 于 社交 
网 络 计算 的 格式 。 

在 这 一 步 ， 我 们 将 把 原始 的 GDF 文 件 调整 成 有 效 的 Pajek 文 件 ， 因 为 这 种 格式 是 社交 网 络 工 
具 networkx 所 需要 的 。 





单词 pajek 的 意思 是 斯 洛 维尼 亚 蜂 蛛 。 社 交 网 络 就 可 以 被 想象 成 一 个 由 节点 
- 和 节点 间 的 连接 线 组 成 的 大 网 。 
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从 Facebook 的 GDF 格 式 到 Pajek 格 式 的 转换 如 下 : 


*vertices 296 

1234 Bugs Bunny male en US 296 
2456 Daffy Duck male en US 295 
9876 Minnie Mouse female en US 294 
*edges 

1234 2456 

2456 9876 

2456 3456 


下 面 是 一 些 关 于 Pajek 文 件 格式 的 转换 要 点 。 


口 这 种 文件 是 通过 空格 而 非 逗号 分 隔 的 。 
O 与 GDF 文 件 一 样 ， 数 据 主要 分 为 两 大 部 分 ， 而 且 这 两 部 分 都 有 特定 的 标签 标注 ， 并 以 星 






































号 (*) 开始 。 这 两 段 数 据 分 别 被 称 为 顶点 〈 也 称 为 节点 ) 和 边 。 
a 文件 中 有 一 个 关于 顶点 (节点 ) 个 数 的 统计 ， 统 计数 字 位 于 第 一 行 单词 vertices 的 后 面 。 


口 出 现在 每 个 人 物 名 字 中 的 空格 字符 都 由 下 划 线 取代 。 
a 节点 数据 段 中 的 其 余 字 段 都 是 可 选 的 。 


要 把 GDF 文 件 转换 成 Pajek 格 式 ， 我 们 使 用 文本 编辑 带 就 够 了 ， 因 为 这 些 修改 相对 来 说 还 是 
比较 简单 的 ， 而 且 数据 量 也 不 是 特别 大 。 我 们 可 以 像 下 面 那样 完成 数据 清洗 工作 。 


(1) 把 原来 的 GDF 文 件 另 保存 一 份 ， 并 重新 命名 为 fbPajeknet ( 扩展 名 .net 常 用 来 表示 Pajek 网 
络 文件 )。 


(2) 把 第 一 行 中 的 内 容 替 换 掉 。 现 在 文件 的 内 容 如 下 : 
nodedef»name VARCHAR,label VARCHAR,sex VARCHAR,locale VARCHAR,agerank INT 


你 需要 把 它 修改 为 : 


















































*vertices 296 


请 确保 顶点 的 数目 与 实际 文件 中 的 数目 一 致 。 这 实际 上 就 是 节点 的 数量 , 与 GDF 文 件 中 的 每 
一 行 信息 对 应 。 


(3) 替换 文件 中 的 边 。 现 在 文件 的 内 容 如 下 : 
edgedef»nodel VARCHAR,node2 VARCHAR 


你 需要 把 它 修改 成 : 























*edges 
(4) 从 第 二 行 开 始 ， 我 们 需要 把 空格 字符 全 部 都 替换 成 下 划 线 。 由 于 文件 中 只 有 名 字 部 分 包 
含 空格 字符 ， 所 以 我 们 可 以 放心 地 这 样 做 。 下 面 是 替换 前 的 内 容 : 
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1234,Bugs Bunny,male,en, US,296 
2456,Daffy Duck,male,en, US,295 
3456,Minnie Mouse,female,en, US,294 


以 下 是 蔡 换 后 的 结果 : 

















1234,Bugs. Bunny,male,en, US,296 
2456,Daffy Duck,male,en, US,295 
3456,Minnie Mouse,female,en, US,294 


(5) 现在 可 以 使 用 查找 与 替换 功能 把 所 有 逗号 都 替换 成 空格 了 。 操 作 完 成 后 节点 部 分 的 数据 





P: 


*vertices 296 

1234 Bugs Bunny male en US 296 
2456 Daffy Duck male en US 295 
3456 Minnie Mouse female en, US 294 


边 部 分 的 数据 结果 如 下 : 


*edges 

1234 2456 
2456 9876 
2456 3456 


(6) 最 后 ， 使 用 文本 编辑 器 的 查找 功能 定位 名 字 中 含有 单 引号 的 Facebook 好 友 。 然 后 通 ; 


换 功 能 将 所 有 的 单 引号 全 部 替换 为 空 。 因此 ， 数据 cap'n_crunch 会 变 成 : 


1998988 Capn Crunch male en US 137 


现在 得 到 的 就 是 清洗 后 的 Pajek 格 式 的 文件 。 





4.4.6 第 六 步 : 简单 的 社交 网 络 分 析 


讲 到 这 里 ， 我 们 马上 就 要 使 用 Python 包 networks 来 计算 一 些 简 单 的 社交 网 络 数据 。 虽 然 对 于 
社交 网 络 分 析 ( SNA ) 的 讨论 已 经 超出 了 本 书 的 讨论 范围 ,但 我 们 还 是 会 适当 地 做 一 些 与 比较 容 


易 实 现 的 SNA 计 算 。 





要 完成 这 个 目标 ， 首 先 要 保证 安装 了 networkx 包 。 由 于 我 使 用 Canopy 作 为 Python 编辑 器 ， 所 

















以 可 以 使 用 Package Manager 来 检查 是 否 安装 了 networkx。 


确认 networkx 安 装 之 后 ， 我 们 可 以 快速 地 写 出 一 段 Python 代码 来 读 取 Pajek 文 件 ， 并 从 


Facebook 网 络 结构 中 输出 一 些 有 趣 的 内 容 : 


import networkx as net 


# 读 取 文件 
9 = net.read pajek('fb pajek.net') 
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# 图 中 有 多 少 个 节点 ? 
# print len(g) 





# 创建 一 个 度 值 图 : 一 组 名 值 对 ， 将 节点 与 网 络 中 边 的 数量 相连 结 

deg = net.degree(g) 

* 对 度 值 图 进行 排序 ， 并 输出 度 值 最 高 (社交 网 络 中 边 数 最 多 ) 的 10 个 节点 

print sorted(deg.iteritems(), key-lambda(k,v): (-v,k))[0:9] 

我 的 社交 关系 输出 展现 如 下 。 其 中 列 出 了 前 十 个 节点 ， 每 个 节点 中 标注 了 还 有 多 少 其 他 节点 
与 这 个 节点 相连 : 











[(u'Bambi', 134), (u'Cinderella', 56), (u'Capn Crunch', 50), 
(u'Bugs Bunny', 47), (u'Minnie Mouse', 47), (u'Cruella Deville', 
46), (u'Alice Wonderland', 44), (u'Prince Charming', 42), 


(u'Daffy Duck', 42)] 


这 里 显示 Bambi 与 我 的 134 个 好 友 有 联系 , 但 Prince_charming 只 与 我 的 42 个 好 友 有 联系 。 


保 所 有 的 节点 标签 都 不 包含 空格 和 其 他 特殊 字符 ,在 前 面 的 清洗 中 我 们 已 经 去 除 


M 如 果 你 在 运行 Python 时 遇 到 缺少 引号 的 错误 ， 请 多 检查 几 次 Pajek 文 件 ， 确 
E 了 空格 和 引号 字符 ,但 即便 如 此 ,你 的 好 友 名 字 中 还 是 有 可 能 包含 别 的 奇特 字符 ! 





当然 , 你 还 可 以 用 networkx 与 D3 的 可 视 化 功能 做 些 别 的 有 趣 的 事情 , 这 个 示例 项 目 只 是 让 我 
们 了 解 一 下 数据 清洗 过 程 对 于 任何 成 功 的 大 型 项 目的 重要 意义 。 


4.5 小结 


在 这 一 章 中 我 们 学 会 了 多 种 把 数据 从 一 种 格式 转换 成 男 一 种 格式 的 方法 。 其 中 一 些 技术 比较 
简单 ， 比 如 直接 把 文件 保存 为 我 们 想 要 的 格式 , 或 是 通过 菜单 选项 直接 输出 正确 的 格式 。 但 有 些 
时 候 ， 我 们 则 需要 亲自 动手 编写 解决 方案 。 


在 许多 项 目 中 , 包括 本 章 的 示例 项 目 ， 需 要 不 同 的 清洗 步骤 ,所 以 我 们 必须 仔细 认真 地 做 好 
清洗 计划 ， 并 对 做 过 的 清洗 工作 做 好 记录 。networkx 和 D3 都 是 非常 好 用 的 工具 , 但 它们 对 能 够 处 
理 的 数据 格式 也 是 有 要 求 的 。 同 样 ， 虽然 我 们 可 以 通过 netvizz 轻 松 地 拿 到 Facebook 数 据 ,， 但 是 这 
些 数 据 的 格式 比较 特殊 。 因 此 ,能够 轻松 地 从 一 种 文件 格式 转换 成 男 外 一 种 文件 格式 , 已 成 为 数 
据 科 学 工作 中 不 可 或 缺 的 技能 。 


在 这 一 童 里 , 我 们 已 经 在 结构 化 和 非 结构 化 数据 之 间 做 了 大 量 的 转换 练习 。 但 是 要 怎么 样 才 
能 清洗 诸如 无 结构 化 文本 这 样 的 杂乱 数据 呢 ? 

在 接 下 来 的 第 5 章 , 我 们 会 继续 丰富 我 们 的 数据 科学 清洗 工具 箱 , 学 习 更 多 的 方法 来 清洗 Web 
页 面 。 





















































收集 并 清洗 来 自 网 络 的 数据 














在 所 有 的 厨具 当中 , 滤器 是 最 常用 和 有 用 的 工具 之 一 , 它 的 作用 就 是 在 亮 饪 的 过 程 中 将 固体 
从 液体 中 分 离 出 来 。 在 这 一 章 中 , 我 们 将 为 来 自 网 络 的 数据 构建 滤器 , 学 习 如 何 利用 不 同类 型 的 
程序 找到 并 保存 我 们 想 要 的 数据 ， 同 时 去 除 不 需要 的 内 容 。 


在 这 一 章 中 ， 我 们 将 要 完成 以 下 几 项 内 容 。 


Q 理解 两 种 不 同 的 HTML 页 面 结构 ， 第 一 种 是 行 集合 ， 我 们 可 以 根据 样式 匹配 其 中 的 内 容 ; 

第 二 种 是 带 有 节点 的 树 形 结构 ， 我 们 可 以 利用 这 些 节点 来 识别 并 找 出 想 要 的 数据 。 

Q 尝试 使 用 三 种 方法 来 解析 页 面 ， 一 种 是 使 用 逐 行 方法 〈 基 于 正则 表达 式 的 HTML 分 析 技 
术 )， 另 外 两 种 则 是 使 用 树 形 结构 方法 (Python 的 BeautifulSoup 库 和 一 个 叫 作 Scraper 的 基 
于 Chrome 浏 览 需 的 工具 )。 

口 根据 实际 的 数据 情况 来 实现 这 三 种 技术 方案 ; 我 们 将 从 已 经 发 布 的 网 络 论坛 消息 中 去 除 

日 期 和 时 间 。 















































5.1 理解 HTML 页 面 结构 


网 页 就 是 一 个 纯 文 本 文件 ， 其 中 包含 了 一 些 特 殊 的 标记 元 素 〈 有 时 候 称 为 HTML 标 签 )， 用 
来 告知 浏览 器 应 该 如 何 向 用 户 呈 现 要 显示 的 内 容 。 例 如 ， 如 果 我 们 想 强 调 某 个 单词 ,那么 只 需 像 
下 面 的 代码 那样 把 单词 用 <em> 标 签 围 住 即 可 : 


























Itis «em»very important</em> that you follow these instructions. 


所 有 的 网 页 都 具备 这 样 的 特性 ; 它们 本 身 都 是 由 文本 组 成 的 , 并 且 这 些 文本 中 会 包含 许多 不 
同 的 标签 。 如 果 想 从 网 页 中 提取 数据 ,大 抵 可 以 采用 两 类 心智 模型 。 这 两 类 模型 分 别 有 着 各 上 自 的 
侧重 点 。 在 这 一 节 中 , 我 们 先 对 这 两 类 结构 化 模型 做 一 番 介 绍 ， 然 后 在 下 一 节 中 使 用 三 种 不 同 的 
工具 来 进行 数据 提取 演示 。 
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5.1.4 fT lg ts zl 


理解 网 页 的 最 简单 方式 就 是 专注 于 这 一 事实 : 网 页 上 有 许多 不 同 的 HTML 元 素 /标签 , 用 来 在 
网 络 上 显示 页 面 中 的 内 容 。 如 果 我 们 想 从 这 个 简单 的 模型 中 抽取 自己 比较 感 兴趣 的 数据 ,就 必须 
把 网 页 中 的 文字 和 骨 套 在 其 中 的 HTML 元 素 本 身 当 作 分 隔 符 。 就 拿 前 面 的 示例 来 说 ,我 们 可 以 提 
取 标 签 <em> 里 面 的 数据 ， 也 可 以 是 标签 <em> 之 前 或 是 标签 </em> 之 后 的 数据 。 


在 这 个 模型 中 , 我 们 需要 发 挥 一 下 想象 力 , 把 网 页 想象 成 由 超大 的 无 结构 文本 和 一 些 根据 需 
求 组 织 起 来 的 HTML 标 签 (或 别 的 文本 特性 ， 如 反复 出 现 的 词 ) 共同 组 成 的 一 个 集合 ， 其 中 的 结 
构 化 标签 可 以 帮助 我 们 把 内 容 分 隔 成 不 同 的 部 分 。 有 了 这 些 分 隔 标 记 , 从 页 面 提取 数据 就 不 会 成 
为 难事 。 
请 看 下 面 的 HTML 页 面 代码 片段 ， 它 们 取 自 Django IRC 频 道 的 聊天 日 志 。 现 在 让 我 们 想 想 怎 
么 把 HIML 元 素 当 成 分 隔 符 ， 提 取 我 们 需要 的 数据 : 


«div id="content"> 
<h2>Sep 13, 2014«/h2» 
























































«a href-"/2014/sep/14/"»- next day«/a» Sep 13, 2014 «a 
href-"/2014/sep/12/"»previous day 一 </a> 


«ul id-"11"'» 
«li class-"le" rel-"petisnnake"»«a href-"1$1574618" 
name-"1574618"»4«/a» «span style-"color:1b78a0f;8" 
class-"username" rel-"petisnnake"»&lt;petisnnake&gt;«/span» i 
didnt know that </li> 
E ud 
SU div 
在 示例 文本 中 , 我 们 可 以 使 用 <n2></h2> 标 签 作为 分 隔 符 来 提取 聊天 日 志 中 的 日 期 。 还 可 以 
使 用 <1i></1i> 作 为 分 隔 符 并 找到 其 中 的 rel=" "来 提取 聊天 人 的 名 字 。 最 后 可 以 提取 </span> 
到 </1i> 之 间 由 用 户 向 聊天 频道 发 出 的 消息 。 




















这 些 聊 天 日 志 可 以 从 Django IRC 日 志 网 站 获取 ， 地 址 为 http://django- 
irc-logs.com。 这 个 网 站 同时 还 支持 使 用 关键 字 搜 索 日 志 内 容 的 接口 。 为 了 保持 代 
码 简 洁 ， 部 分 内 容 采 用 省 略 号 (... ) 代替。 





从 上 面 杂乱 无 音 的 文本 中 , 我 们 可 以 使 用 分 隔 符 的 概念 来 提取 三 段 数 据 (日 志 时 间 、 用 户 和 
消息 )。 





5.1.2 ” 树 形 结构 模型 
男 一 种 理解 方式 是 把 文本 页 面 想象 成 一 个 由 HTML 元 素 / 标 签 组 成 的 树 形 结构 ， 其 中 每 个 元 素 / 
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标签 都 与 页 面 上 的 其 他 一 些 标签 相关 。 每 个 标签 都 是 一 个 节点 ， 整 棵 树 是 由 页 面 中 所 有 节点 组 成 
的 。 在 HTML 中 ， 如 果 一 个 标签 出 现在 另 一 个 标签 的 内 容 中 ,那么 内 部 标签 就 被 称 为 子 标签 ， 外 
部 标签 被 称 为 父 标签 。 在 之 前 的 骸 C 聊 天 日 志 的 例子 中 ，HTML 片 段 展现 的 树 形 图 如 下 : 





























如 果 把 HTMI 文本 想象 成 树 形 结构 ， 那 么 我 们 就 可 以 使 用 编程 语言 来 构建 这 棵 树 。 这 样 ， 我 

们 就 可 以 根据 元 素 的 名 字 或 是 在 元 素 列表 中 的 位 置 ， 提 取 需 要 的 文本 数据 。 例 如 5 

O 我 们 想 要 根据 标签 的 名 字 提 取 数据 ( 节点 <h2> 中 的 文本 ); 

Q 我 们 想 要 抓 取 某 种 标签 类 型 下 的 所 有 节点 ( <aiv> 内 部 的 <ul> 页 签 下 的 所 有 <1i> 节 点 ); 

O 我 们 想 要 一 个 指定 元 素 中 的 所 有 属性 ( <1i > 元 素 中 的 rel 属性) 
在 这 一 章 的 剩余 部 分 , 我 们 将 把 心智 模型 行 分 隔 模 型 和 树 形 结构 

当中 。 我 们 将 采用 三 种 不 同 的 方法 来 提取 和 清洗 HTML 页 面 中 的 数据 。 
































应 用 到 实际 的 案例 


5.2. Jjik—: Python 和 正则 表达 式 


在 这 一 节 中 , 我 们 使 用 简单 的 方法 提取 HTML 页面 中 的 数据 。 这 个 方法 是 基于 识别 文件 中 的 
分 隔 符 的 概念 ， 并 同时 配合 正则 表达 式 的 使 用 ， 最 终 提取 我 们 需要 的 数据 。 


你 也 许 还 记得 我 们 在 第 3 章 中 演练 过 一 些 正 则 表达 式 吧 ， 那 时 候 我 们 用 的 是 文本 编辑 器 。 其 
中 的 一 些 概 念 与 本 章 即 将 描述 的 都 是 相通 的 ， 只 是 这 次 要 使 用 Python 来 蔡 代 我 们 之 前 使 用 的 文本 
编辑 器 ， 采 用 编程 的 形式 来 查找 匹配 的 文本 并 完成 数据 的 提取 工作 。 

在 开始 实践 之 前 还 有 一 件 事 我 们 得 铭记 于 心 ， 即 正则 表达 式 这 种 实现 方案 虽然 非常 容易 理 


解 , 但 也 有 很 大 的 局 限 性 , 具体 取决 于 项 目的 的 细节 。 在 这 一 节 的 最 后 我 们 会 对 相关 的 局 限 性 做 
出 详细 的 说 明 。 
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5.2.1 第 一 步 : 查找 并 保存 实验 用 的 Web 文件 


在 这 个 例子 中 , 我 们 将 要 抓 取 前 面 Django 项 目 中 提 到 的 人 RC 聊天 记录 。 这 些 文件 都 是 公开 的 ， 
并 且 结 构 也 比较 常规 ， 所 以 比较 适合 我 们 这 个 项 目 使 用 。 进 入 Django IRC 日 志 归 档 网 站 
http:/django-irc-logs.com/， 选 择 一 个 你 认为 对 你 比较 有 意义 的 日 期 。 进 入 所 选 日 期 对 应 的 目标 页 
面 后 ， 把 文件 保存 到 你 的 本 地 工作 目录 。 下 载 完 成 后 你 会 得 到 一 个 以 .html 结 尾 的 文件 。 


5.2.2 第 二 步 : 观察 文件 内 容 并 判定 有 价值 的 数据 


我 们 在 第 2 章 中 已 经 学 过 , .html 文 件 是 纯 文本 文件 , 而 通过 第 3 章 的 学 习 我 们 已 经 能 够 用 文本 
编辑 需 查 看 文本 文件 ,所 以 这 一 步 的 目标 很 容易 实现 。 只 需要 用 文本 编辑 需 打 开 HIMIL 文 件 ， 然 
后 仔细 查看 其 中 的 内 容 即 可 。 但 是 有 哪些 内 容 可 以 提取 呢 ? 


在 观察 过 程 中 , 我 确实 发 现 了 儿 项 可 以 提取 的 内 容 。 从 每 一 条 聊天 记录 的 备注 内 容 中 可 以 看 
出 ， 里 面 有 行 号 、 用 户 名 、 备 注 这 些 信息 。 接 下 来 我 们 得 为 抽取 这 三 项 内 容 做 一 些 准 备 了 。 


下 面 截图 显示 的 是 在 文本 编辑 器 中 打开 的 HTML 文 件 。 当 时 我 打开 了 折 行 功能 ， 因 为 有 些 行 
的 内 容 实 在 是 太 长 了 (在 Text Wrangler 中 可 以 通过 View | Text Display | Soft Wrap Text 打 开 这 个 功 
能 )。 在 29 行 上 下 我 们 可 以 看 到 聊天 记录 的 开始 部 分 ， 每 一 行 都 包括 我 们 想 要 的 那 三 项 内 容 。 




























































































29|Y| «ul id-"ll'"» 

30 <li class-z"le" relz"petisnnake"»«a href="#1574618" namez"1574618"»4«/a» «span 
stylez"color:sb78a0f;8" class-"username" relz"petisnnake"»&lt;petisnnake&gt;«/span» i 

E didnt know that «/li» 

31 «li class-"le" rel-"dshap"»«a href="#1574619" name="1574619">#</a> «span 

二 style-"color:£b93d98;8" class-"username" rel-"dshap"-&lt;dshap&gt;«/span» FunkyBob: ahh, 
hmm, i wonder if there's a way to do it in my QuerySet subclass so i'm not creating a new | 
manager subclass xonlyx for get queryset to do the intiial filtering </li> 


接 下 来 的 工作 就 是 从 每 一 行 中 找 出 看 起 来 具有 相同 特点 的 内 容 , 这 样 就 可 以 从 聊天 记录 里 抓 
取 我 们 所 需 的 那 三 项 内 容 了 。 从 文本 内 容 中 我 们 可 以 发 现 ， 只 要 遵循 下 面 的 规则 ,就 可 以 在 改动 
最 小 的 情况 下 准确 地 抽取 每 一 项 数据 。 


口 我 们 需要 抽取 的 三 项 数据 都 可 以 在 标签 <1i> 内 找到 ， 并 且 这 个 标签 全 部 处 于 标签 <ul 
id="11"> 内 部 。 每 一 个 <1i> 代 表 一 条 聊天 消息 记录 。 

a 在 消息 中 , 行 号 信息 可 以 从 两 个 位 置 找 出 : 一 处 是 字符 串 <a href="# 之 后 , 男 一 处 是 name 
属性 后 面 的 双 引 号 之 间 。 在 示例 中 ， 第 一 个 出 现 的 行 号 是 1574618。 
O 属性 username 可 以 在 三 个 地 方 找 到 ， 第 一 处 是 标签 1i class="1le" 的 rel 属 性 值 ， 第 二 
处 是 标签 span 中 的 rel 属 性 ， 最 后 一 处 则 是 处 于 glt; 和 &gt; 之 间 。 在 示例 中 ， 第 一 个 

username 的 值 是 pet isnnake。 
口 消息 信息 处 于 标签 </span> 和 </1i> 之 间 。, 在 例子 中 ,第 一 条 消息 是 i didnt know that; 
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数据 的 查找 规则 已 经 有 了 ， 那 就 开始 写 程序 吧 。 
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5.2.3 第 三 步 : 编写 Python 程序 把 数据 保存 到 CSV 文件 中 


在 这 里 我 们 编写 了 下 面 的 代码 ， 用 它 来 打开 一 个 指定 的 IRC 日 志文 件 ， 文 件 的 格式 与 我 们 之 
前 描述 的 一 样 。 利 用 这 份 代 码 我 们 可 以 分 别 解析 出 所 需 的 三 项 数据 并 把 它们 输出 到 CSV 文 件 : 


import re 
import io 


row - [] 
infile = io.open('djangol13-sept-2014.html', 'r', encoding-'utf8') 
outfile = io.open('djangol3-sept-2014.csv', 'a-«', encoding-'utf8') 


for line in infile: 


pattern = re.compile(ur'«li class=\"le\" rel=\"(.+?)\"><a 
href=\"#(.+?)\" name=\"(.+?)<\/span> (.«4?)«/li»', re.UNICODE) 


if pattern.search(line): 


username - pattern.search(line).group(1) 
linenum = pattern.search(line).group(2) 
message = pattern.search(line).group(4) 


row.append(linenum) 
row.append (username) 
row.append (message) 


outfile.write(', '.join(row)) 


outfile.write(u'WMn') 
row - [] 
infile.close() 


这 段 代 码 最 复杂 的 地 方 就 是 pattern 那 一 
的 样式 匹配 进行 比较 。 





行 。 文 件 中 的 每 一 行文 本 都 会 与 该 行 代码 构建 出 来 


注意 ,网 站 的 开发 者 可 以 随时 改变 HTML 结 构 ， 所 以 我 们 是 冒 着 风险 干 这 件 
事 的 ， 因 为 说 不 定 哪 天 我 们 精心 编写 的 样式 就 无 法 工作 了 。 实 际 上 , 在 编写 本 书 
的 几 个 月 时 间 里 ， 这 个 页 面 的 HTML 至 少 发 生 过 一 次 变化 ! 

















每 组 匹配 的 数据 样式 都 是 ， +?。 这 样 的 数据 一 共有 五 组 ， 其 中 三 组 是 我 们 有 兴趣 的 数据 (用 
户 名 、 行 号 和 消息 )， 男 外 两 组 对 我 们 没有 什么 用 处 ， 可 以 直接 丢弃 。 页 面 中 的 其 余 内 容 也 都 可 
Ho 因为 它们 与 我 们 设计 的 样式 无 法 匹配 。 4L TRUE FE SUR — üt T TE, hga T — 


个 功能 漏 点 。 有 用 的 数据 都 会 从 这 些 漏 点 中 过 




















寺 滤 下 来 ， 留 下 的 都 是 没有 用 的 数据 。 


5.2.4 ”第 四 步 : 查看 文件 并 确认 清洗 结果 
用 文本 编辑 器 打开 新 创建 的 CSV 文 件 ， 这 时 我 们 看 到 的 前 几 行内 容 应 该 与 下 面 一 样 : 


1574618, petisnnake, i didnt know that 


1574619, dshap, FunkyBob: ahh, hmm, 


i wonder if there's a way to do 


it in my QuerySet subclass so i'm not creating a new manager subclass 
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*only* for get queryset to do the intiial filtering 
1574620, petisnnake, haven used Django since 1.5 


结果 看 起 来 还 不 赖 。 不 过 有 件 事 你 可 能 已 经 注意 到 了 , 第 三 列 文本 没有 使 用 封闭 字符 。 由 于 
我 们 把 逗号 作为 分 隔 符号 使 用 ， 这 下 我 们 得 面 对 新 的 问题 了 。 第 三 列 文本 中 的 逗号 该 怎么 处 理 
呢 ? 如 果 这 个 问题 让 你 苦恼 的 话 , 你 可 以 选择 用 引号 把 第 三 列 内 容 封 闭 起 来 , 或 者 是 改 用 制 表 符 
来 作为 分 隔 符号 。 要 想 改 变 分 隔 符号 ， 我 们 需要 对 第 一 个 outfile.write() 语 句 做 一 些 修改 ， 
把 当中 连接 用 的 逗号 全 部 替换 成 \t ( 制 表 符 )。 在 处 理 中 ， 你 还 可 以 使 用 函数 1trim() 来 清洗 消 
息 中 包含 的 多 余 空 白字 符 。 



































5.2.5 ”使 用 正则 表达 式 解析 HTML 的 局 限 性 


正则 表达 式 这 个 方案 乍 看 起 来 挺 简单 的 , 但 它 是 有 局 限 性 的 。 首先, 对 于 数据 清洗 工作 者 来 
Wi, 设计 正则 表达 式样 式 可 能 就 是 一 件 昔 差事 。 你 得 花费 大 量 的 时 间 和 精力 来 调试 样式 、 编 写 元 
长 的 说明 文档 。 所 以 ， 为 了 辅助 正则 表达 式 的 开发 ,我 极力 推荐 使 用 像 http:/Pythex.org 这 样 的 正 
则 表达 式 测 试 工具 ， 当 然 ， 你 也 可 以 用 搜索 引擎 找 一 款 更 适合 你 自己 使 用 的 测试 工具 。 如 果 你 使 
用 的 语言 是 Python 的 话 ， 一 定 要 指明 你 想 要 的 是 Python 正则 表达 式 测 试 工具 。 


接 下 来 ,你 应 该 事先 搞 清楚 一 件 事 ,正则 表达 式 是 完全 依赖 网 页 结构 的 。 因此， 如 果 你 打算 
从 网 站 上 收集 数据 , 那么 你 今天 编写 的 正则 表达 式 很 有 可 能 明天 就 无 法 工作 了 。 表达 式样 式 只 有 
在 页 面 布局 没有 发 生变 化 的 时 候 才 能 正常 工作 。 或许 刚 刚 在 两 个 标签 之 间 加 入 的 一 个 空格 字符 就 
能 让 整个 正则 表达 式 失效 , 但 分 析 起 来 却 是 困难 重重 。 还 有 一 点 需要 谨 记 的 是 , 你 无 法 干预 网 站 
的 变化 ， 因 为 要 收集 的 大 部 分 数据 不 是 源 于 你 自己 的 网 站 ! 


最 后 要 讲 的 是 , 很 多 情况 下 无 法 使 用 正则 表达 式 来 精确 地 匹配 HTML 结 构 的 。 正 则 表达 式 虽 
然 强 大 ， 但 它 并 非 完美 得 无 懈 可 击 。 对 于 这 个 问题 ， 我 推荐 你 参考 著名 的 Stack Overflow 上 一 个 
超过 4000 次 点 赞 的 答案 : http://stackoverflow.com/questions/1732348/。 在 这 个 答案 中 , 作者 幽默 地 
表达 了 许多 程序 员 的 失望 之 情 , 他 们 曾经 一 次 次 尝试 解释 为 什么 正则 表达 式 不 是 解析 无 规则 的 频 
繁 变化 的 HTML 页 面 的 最 佳 方案 。 



























































































































































5.3 ALZ: Python 和 BeautifulSoup 


为 正则 表达 式 有 诸多 局 限 性 ， 所 以 我 们 必须 得 用 更 多 的 工具 来 进行 补充 。 在 这 里 , 我 们 将 
使 用 Python 的 BeautifulSoup 库 来 解析 树 形 结 构 的 HTML 页 面 。 











5.3.1 第 一 步 : 找到 并 保存 实验 用 的 文件 


在 这 一 步 中 ,我 们 还 使 用 方法 一 中 的 那个 文件 : R H Django IRC 频 道 的 文件 。 我 们 还 是 提取 
相同 的 三 个 内 容 。 这 样 做 很 容易 比较 出 这 两 种 方法 的 差异 。 
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5.3.2 第 二 步 : 安装 BeautifulSoup 


BeautifulSoup 目 前 已 经 发 展 到 第 四 版 。 这 个 版 本 同时 兼容 Python 2.7 和 Python 3。 


pip install beautifulsoup4 就 可 以 安装 BeautifulSoup。 


如 果 你 使 用 的 是 Enthought Canopy Python 环境 ， 在 Canopy Terminal 里 运行 
~ 


5.3.3 第 三 步 : 编写 抽取 数据 用 的 Python 程序 


我 们 需要 的 三 项 内 容 可 以 从 1i 标 签 集合 中 找到 , 更 准确 地 说 是 那些 带 有 class="le" 样 式 的 
标签 。 在 这 个 文件 中 虽然 再 没有 别 的 1i 标 签 了 , 但 为 了 谨慎 起 见 我 们 在 操作 时 还 是 应 该 尽 可 能 地 
旨 明 具体 信息 。 下 面 的 列表 描述 了 在 解析 树 形 结构 时 我 们 需要 获取 的 内 容 以 及 它们 的 所 在 位 置 。 


a 我 们 可 以 从 1i 标 签 中 的 rel 属 性 提取 username 值 。 
口 我 们 可 以 从 标签 中 的 name 属性 提取 1inenum 值 。 这 个 标签 指 的 是 1i 内 部 的 第 一 个 a 标签 。 

















, 请 记 住 ， 数 组 索引 是 从 零 开始 的 ， 所 以 我 们 需要 使 用 0 获取 第 一 个 项 目的 
Eo» n 


Ao 

















在 BeautifulSoup 中 , 标签 的 内 容 就 是 被 解析 的 树 形 结构 的 标签 的 内 部 项 目 , 在 有 些 包 中 被 
称 为 子 项 。 


口 我 们 可 以 把 message 当 作 1i 标 签 的 第 四 项 内 容 ( 也 就 是 数组 中 的 内 容 [3] ) 来 处 理 。 还 有 
点 需要 注意 的 是 ， 每 条 消息 的 前 面 都 有 一 个 打头 的 空白 字符 ， 我 们 需要 在 保存 数据 之 
前 把 它 处 理 掉 。 


下 面 是 解析 树 形 结构 的 Python 代码 : 
























































from ps4 import BeautifulSoup 
import io 


infile = io.open('djangol13-sept-2014.html', 'r', encoding-'utf8') 
outfile = io.open('djangol3-sept-2014.csv', 'a-«', encoding-'utf8') 
soup - BeautifulSoup(infile) 


row - [] 
allLines - soup.findAll("li","le") 
for line in allLines: 
username - line['rel' 
linenum - line.contents[0]['name'] 
message = line.contents[3].lstrip() 
row.append(linenum) 
row.append (username) 
row.append (message) 
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outfile.write(', '.join(row)) 
outfile.write(u'Mn') 
row - [] 

infile.close() 


534 ”第 四 步 : 查看 文件 并 确认 清洗 结 


用 文本 编辑 器 打开 新 创建 的 CSV 文 件 ， 从 前 几 行 数据 中 我 们 可 以 发 现 , 这 基本 上 与 第 一 种 方 
法 产生 的 结果 一 样 : 

1574618, petisnnake, i didnt know that 

1574619, dshap, FunkyBob: ahh, hmm, i wonder if there's a way to do 

it in my QuerySet subclass so i'm not creating a new manager subclass 


*only* for get queryset to do the intiial filtering 
1574620, petisnnake, haven used Django since 1.5 


与 正则 表达 式 方案 类 似 , 如 果 你 对 最 后 一 列 中 的 逗号 分 隔 符 不 放心 的 话 , 可 以 用 双 引 号 把 其 
中 的 文本 封闭 起 来 ， 或 者 是 改 用 制 表 符 作为 字段 分 隔 符 。 























5.4 方法 三 : Chrome Scraper 





如 果 你 不 想 用 程序 解析 数据 的 话 , 还 有 一 些 基 于 浏览 器 的 工具 可 以 让 你 从 树 形 结构 中 抽取 数 
据 。 我 认为 最 简单 省 事 的 方案 就 是 使 用 Chrome 应 用 扩展 中 一 个 叫 作 Scraper 的 工具 ， 它 的 开发 者 
名 为 mnmldave ( 真名 : Dave Heaton )。 




















5.4.1 第 一 步 : 安装 Chrome 扩展 Scraper 


如 果 你 还 没有 安装 Chrome 浏 览 器 的 话 ， 那 就 先 下 载 一 个 。 然 后 再 确认 一 下 你 是 不 是 安装 
正确 版 本 的 Scraper, 因为 名 字 类 似 的 扩展 插件 不 止 一 个 。 我 推荐 直接 从 开发 者 本 人 的 GitHub 站 点 
获取 这 个 扩展 插件 ， 地址 为 http://mnmldave.github.io/scraper/。 通 过 这 种 途径 获取 的 程序 肯定 没有 
问题 ， 这 样 你 就 不 用 在 Chrome 商 店 中 到 处 找 了 。 从 http://mmldave.github.io/scraper 点 击 链 接 安装 
完 扩 展 插件 后 ， 重 新 启动 浏览 


























5.4.2 第 二 步 : 从 网 站 上 收集 数据 


现在 可 以 用 你 的 浏览 器 访问 我 们 之 前 两 个 数据 提取 实验 所 使 用 的 URL, 随便 访问 一 个 Django 
IRC 日 志 。 我 使 用 的 是 2014 年 9 月 13 日 的 数据 ， 所 以 我 的 访问 地 址 是 http://django-irc-logs.com/ 
2014/sep/13/。 


在 本 书 编写 之 时 ， 页 面 在 我 的 浏览 需 中 看 起 来 是 下 面 这 个 样子 : 
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#django IRC logs 





Sep 13, 2014 
e next day Sep 13, 2014 previous day ^ 


# «petisnnake» i didnt know that 

# «dshap» FunkyBob: ahh, hmm, i wonder if there's a way to do it in my QuerySet subclass 
# «petisnnake» haven used Django since 1.5 

# «FunkyBob» petisnnake: really? it's probably the biggest single new feature of 1.7 

# «FunkyBob» renlo: btw -- you can do a smarter query than that 


IRC 日 志 中 已 经 包含 了 我 们 需要 提取 的 三 项 内 容 : 


a 行 号 信息 (从 之 前 的 两 个 实验 中 我 们 可 以 得 知 ， 链 接 内 容 里 符号 # 之 后 的 文本 就 是 和 
口 用 户 名 (符号 < 和 > 之 间 的 文本 ) 
a 消息 信息 
Scraper 可 以 依次 把 那些 要 提取 的 数据 进行 高 亮 显 示 ， 并 把 结果 输出 到 Google Spreadsheet 中 
去 ,之 后 我 们 可 以 把 这 些 输出 结果 重新 整理 到 一 张 工 作 表 里 ， 并 以 CSV 格 式 (或 是 别 的 格式 ) 输 
bb。 下 面 是 具体 的 操作 步 又 。 
(1) 使 用 鼠标 高 亮 选中 你 想 要 抓 取 的 数据 。 


Q) 点 击 鼠 标 右键 并 从 菜单 中 选择 Scrape similar..。 从 下 面 的 截图 中 可 以 看 出 ， 我 选择 用 户 名 
petisnnake 作 为 抓 取 对 象 。 


#django IRC logs 


Sep 13, 2014 










































































rr 














— next day Sep 13, 2014 previous day ^ 


# «petisn 


# «dsha Sopy nm 
" P Search Google for 'petisnnake' E 

# «petisn Print 

* «Funky Mss: ew 





# «Funkygm Scrape similar... 
# 


(3) 选择 Scrape similar 之 后 ， 工 具 显 示 出 一 个 新 的 窗口 ， 其 中 包括 了 页 面 中 其 他 相似 的 项 目 。 
下 面 的 截图 显示 了 Scraper 找 出 的 完整 用 户 名 列表 。 
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© Scraper - Django IRC logs 





Text 


e z 一 
Ei Django IRC logs 一 小 E 


SI «petisnnake» 





" «dshap» 
Selector 
" c3 «petisnnake» 





| XPath +| |l/span 





* 4 «FunkyBob» 
国 XPath Reference 


e 5 <FunkyBob> 


Columns ” 6 <renlo> 
XPath Name NEA «FunkyBob» 
Text 9 o * B8  «FunkyBob» 


€ 9 «FunkyBob» 
Filters 

* 10 «FunkyBob» 
Exclude empty results 


* 11 <markolos> 


* 12 <FunkyBob> 





| Presets... Reset | | Scrape | e | Export to Google Docs... | 











Scraper 根 据 示例 中 的 用 户 名 找 出 了 所 有 类 似 的 项 目 。 


(4) 在 窗口 的 底部 有 一 个 名 为 Export to Google Docs... 的 按钮 。 这 里 需要 注意 的 是 ， 在 不 同 的 
设置 条 件 下 ， 你 可 能 需要 点 击 同意 之 后 才 可 以 让 Scraper 访 问 Google Docs。 

















5.4.3 第 三 步 : 清洗 数据 


当 我 们 把 所 有 需要 的 数据 元 素 都 从 页 面 中 取出 来 并 放 到 Google Docs 后 ， 就 可 以 将 它们 组 织 
到 一 个 文件 里 并 做 最 后 的 清洗 工作 了 。 下 面 是 行 号 信息 抽取 之 后 的 样子 , 而 此 时 我 们 还 没有 对 它 
们 进行 清洗 。 


























Link URL 
# [in 574618 | 
# #1574619 
# #1574620 
# #1574621 
# #1574622 


O ^a Aa UU 一 

















对 于 A 列 中 的 内 容 我 们 并 不 关心 ， 而 且 打 头 的 符号 # 也 不 是 我 们 想 要 的 。 用 户 名 和 每 行 的 消 
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息 数据 看 起 来 也 差不多 一 一 其 中 大 部 分 数据 都 是 有 效 的 , 但 我 们 还 是 得 先 移 除 不 需要 的 符号 , 然 
后 把 所 有 的 内 容 都 集中 到 一 个 独立 的 Google Spreadsheet 中 去 。 


使 用 我 们 在 第 3 章 中 学 到 的 查找 与 替换 技术 〈 即 删除 符号 #、< 和 > 之 后 ， 把 所 有 的 行 粘贴 到 
一 个 新 的 工作 表 中 )， 可 以 得 到 像 下 面 一 样 干净 的 数据 集 : 


























A B C | 
1 1574618 petisnnake i didnt know that | 
2 1574619 dshap FunkyBob: ahh, hmm, i wonder if there's a way to do it in my QuerySet 
3 1574620 petisnnake haven used Django since 1.5 
4 1574621 FunkyBob petisnnake: really? it's probably the biggest single new feature of 1.7 | 
5 1574622 FunkyBob renlo: btw -- you can do a smarter query than that 











Scraper 非 常 适合 从 网 页 中 抓 取 少 量 数据 。 它 有 一 个 便捷 的 Google Spreadsheets 接 口 ， 如 果 你 
不 想 编 写 程 序 的 话 ， 这 不 失 为 一 个 快捷 的 解决 方案 。 在 接 下 来 的 一 节 中 , 我 们 将 迎接 一 个 更 大 的 
项 目 。 它 非常 复杂 ， 可 能 把 这 一 章 中 的 多 个 概念 组 合 到 一 起 才能 形成 一 个 完整 的 解决 方案 。 








5.5 ”示例 项 目 : 从 电子 邮件 和 论坛 中 抽取 数据 


DijangoIRC 日 志 项 目 非常 简单 。 它 的 目的 就 是 向 你 展示 三 种 常见 的 HTML 页面 数据 抽取 技术 
之 间 的 差异 。 我 们 需要 抽取 的 数据 包括 行 号 、 用 户 名 和 IRC 聊 天 消息 ， 找 到 这 些 数据 并 不 难 ， 几 
乎 也 不 需要 什么 额外 的 清洗 操作 。 而 在 即将 开始 的 新 项 目 中 , 概念 上 和 之 前 的 项 目 还 是 有 相似 之 
处 的 , 但 我 们 得 把 数据 抽取 思路 扩展 到 HTML 格 式 之 外 的 两 种 Web 中 常见 的 半 结 构 文本 格式 : Web 
中 的 电子 邮件 消息 和 基于 网 页 的 论坛 消息 。 












































5.5.1 项 目 背景 


我 最 近 做 了 一 项 关于 社交 媒体 如 何 为 软件 技术 提供 支持 的 研究 。 具 体 说 来 , 我 想 知道 ， 是 不 
是 应 该 让 某 些 API 和 框架 的 软件 开发 组 织 把 他 们 对 开发 人 员 的 支持 转移 到 Stack Overflow 上 去 , 或 
者 他 们 是 不 是 应 该 继续 使 用 传统 的 媒体 模式 ， 比 如 电子 邮件 和 网 络 论 坛 。 为 了 完成 这 项 研究 , 我 
特意 比较 了 软件 开发 人 员 获 取 API 问 题 答案 的 时 间 ， 其 中 有 的 是 通过 Stack Overflow， 有 的 是 通过 
传统 的 社交 媒体 ， 比 如 网 络 论坛 和 电子 邮件 组 。 


在 这 个 项 目 里 , 我 们 将 完成 这 个 问题 的 一 小 部 分 。 我 们 会 下 载 两 种 不 同类 型 的 原始 数据 ,分 
别 代 表 了 不 同 的 传统 社交 媒体 : 网 络 论坛 的 HTML 文 件 和 Google Groups 的 电子 邮件 。 我们 会 编写 
Python 代码 来 提取 这 两 个 论坛 消息 里 所 包含 的 日 期 和 时 间 。 之 后 再 整理 出 哪些 消息 是 用 于 回复 其 
他 消息 的 ， 并 对 回复 的 间隔 时 间 做 一 个 简单 的 汇总 统计 。 
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M 如 果 你 想 知 道 为 什么 我 们 不 抽取 Stack Overflow 上 的 数据 样本 来 回答 刚才 提 
Q 出 的 问题 ， 等 到 第 9 章 你 就 明白 了 。 在 那 一 章 我 们 会 专门 创建 并 清洗 Stack 
Overflow 数 据 库 。 





这 个 项 目 被 划分 为 两 个 部 分 。 在 第 一 个 部 分 中 , 我 们 从 Google Groups 的 一 个 项 目的 归档 邮件 
中 抽取 数据 ， 而 在 第 二 部 分 中 ， 我 们 从 另 一 个 项 目的 HTML 文件 抽取 数据 。 





5.5.2 ”第 一 部 分 : 清洗 来 自 Google Groups 电子 邮件 的 数据 


现在 还 有 许多 软件 公司 在 使 用 传统 的 电子 邮件 列表 , 或 是 同时 使 用 邮件 与 网 络 论坛 来 为 他 们 
的 产品 提供 技术 支持 。Google Groups 就 是 这 种 服务 的 一 种 流行 应 用 。 用 户 可 以 向 组 内 发 送 邮 件 ， 
或 是 通过 网 络 浏览 器 阅读 与 搜索 邮件 消息 。 但 是 , 有 的 公司 已 经 把 技术 支持 搬 离 了 Google Groups 
(包括 Google 本 身 的 一 些 产品 )， 取 而 代 之 的 是 使 用 Stack Overflow。 数 据 库 产品 Google BigQuery 
就 是 使 用 Stack Overflow 的 组 织 之 一 。 
































1. 第 一 步 : 收集 Google Groups 消 息 


为 了 研究 BigQuery 在 Google Group 上 的 问题 响应 时 间 ， 我 特意 为 组 内 所 有 的 回复 创建 了 一 份 
URL 清单 列表。 你 可 以 从 https://github.com/megansquire/stackpaper2015/blob/master/BigQuery- 
GGurls.txt 找 到 完整 的 列表 内 容 。 


有 了 目标 URL 列 表 之 后 ， 我 们 就 可 以 编写 Python 程序 来 下 载 URL 中 所 涉及 的 所 有 电子 邮件 ， 
并 把 它们 保存 到 磁盘 中 。 在 下 面 的 程序 里 ， 我 把 URL 清 单列 表 保 存在 一 个 名 为 GGurls.txt 的 文件 
E, 程序 引用 了 time 库 , 这 样 就 可 以 在 请 求 Google Groups 服 务 器 时 使 用 sleep () 函数 稍 作 停 软 : 






































import urllib2 
import time 


with open('GGurls.txt', 'r') as f: 
urls - [] 
for arl imf: 
urls.append(url.strip()) 


currentFileNum - 1 
for url in urls: 
print("Downloading: (0) Number: (1)".format(url, currentFileNum)) 
time.sleep(2) 
htmlFile - urllib2.urlopen(url) 
urlFile = open("msg$d.txt" $currentFileNum, 'wb') 
urlFile.write(htmlFile.read()) 
urlFile.close() 
currentFileNum - currentFileNum «1 


程序 运行 之 后 一 共 在 磁盘 上 生成 了 667 个 文件 。 
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2. 第 二 步 : 从 Google Groups 消 息 中 抽取 数据 


现在 我 们 已 经 有 了 667 组 电子 邮件 消息 ， 每 组 消息 都 以 独立 文件 的 形式 存在 。 接 下 来 的 任务 
BUE 写 一 个 程序 每 次 读 取 一 个 文件 , 并 用 本 章 中 学 到 的 技术 从 文件 中 提取 我 们 需要 的 信息 。 无 
论 从 哪个 邮件 中 我 们 都 可 以 发 现 很 多 头 部 信息 , 其 中 存储 了 电子 邮件 信息 或 是 相关 的 元 数据 。 现 
Jed) 快速 地 浏览 一 下 三 段 关 部 信息 ， 找 出 我 们 需要 的 原 数据 : 
In-Reply-To: «ab71b72a-ef9b-4484-b0cc-a72ecb2a3b850r9g2000yad. 
googlegroups .com> 
Date: Mon, 30 Apr 2012 10:33:18 -0700 


Message-ID: «CA-«qSDkOAJB«Cn7HNjmtLOqqkbJUnyBu-Zi10cs5-dTe5cN9UEPyAGmail. 
gmail.com> 


所 有 的 消息 都 有 Message-ID 和 Date ， 但 In-Reply-To 只 会 在 回复 消息 中 出 现 。 
In-Reply-To 的 值 必须 是 另 一 条 消息 的 Message-ID。 


下 面 的 代码 演示 的 是 一 种 基于 正则 表达 式 的 解决 方案 ， 它 能 够 抽取 Date、Message-ID 和 
In-Reply-To 值 ， 并 创建 出 原始 消息 与 回复 消息 的 列表 。 然 后 计算 出 消息 和 它们 对 应 的 回复 消 
息 之 间 的 时 间 差 。 






























































import os 

import re 

import email.utils 
import time 

import datetime 
import numpy 


originals - () 
replies - () 
timelist - [] 


for filename in os.listdir(os.getcwd()): 
if filename.endswith(".txt"): 
f-open(filename, 'r') 
i-'' 


for line in f: 
irt re.search('(InN-Reply'-To: «)(.«?)0', line) 
mid re.search('(MessageNM-ID: <)(.+?)@', line) 
dt = re.search('(Date: )(.+?)\r', line) 
if Erb. 
i- irt.group(2) 


m- mid.group(2) 


- dt.group(2) 
f.close() 
if i and d: 
replies[i] - d 
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if m and d: 
originals[m] = d 


for (messageid, origdate) in originals.items(): 


try: 


if replies[messageid]: 
replydate - replies[messageid] 


except: 
pass 


try: 
parseddate = email.utils.parsedate(origdate) 
parsedreply - email.utils.parsedate(replydate) 
except: 
pass 
try: 
# 这 个 地 方 有 时 会 生成 错误 的 时 间 值 
timeddate = time.mktime(parseddate) 
timedreply - time.mktime(parsedreply) 
except: 
pass 
try: 
dtdate = datetime.datetime.fromtimestamp(timeddate) 
dtreply = datetime.datetime.fromtimestamp(timedreply) 
except: 
pass 
try: 
difference - dtreply - dtdate 
totalseconds - difference.total seconds() 
timeinhours =  (difference.days*86400-«difference.seconds)/3600 
# 这 个 地 方 应 该 处 理 负 数 时 间 的 
E 或 许 用 时 区 处 理 比较 合适 ， 暂 时 还 是 算 了 吧 
if timeinhours > 1: 
# 打印 小 时 数 
timelist.append (timeinhours) 
except: 
pass 


print numpy.mean(timelist) 
print numpy.std(timelist) 
print numpy.median(timelist) 


从 代码 中 可 以 看 出 ， 最 开始 的 for 循 环 会 依次 提取 我 们 所 需 的 三 种 信息 。( 这 段 程序 不 会 把 
提取 出 来 的 信息 存放 到 一 个 独立 的 文件 或 是 磁盘 中 , 如 果 有 需要 的 话 你 可 以 自己 实现 这 个 功能 。) 
它 创建 了 两 个 重要 的 列表 。 








CL replies[ 












































O originals[] 是 包含 原始 消息 的 列表 。 这 些 消息 都 是 最 初 提出 的 问题 























] 是 包含 回复 消息 的 列表 。 这 些 消 息 都 是 针对 最 初 提出 的 问题 的 回复 。 


第 一 段 for 循 环 处 理会 对 原始 消息 列表 中 的 每 条 消息 做 进一步 处 理 , 如 果 原始 消息 有 对 应 的 
回复 消息 ， 就 尝试 找 出 经 过 多 长 时 间 回 复 消 息 才 被 发 出 。 我 们 会 为 回复 时 间 做 出 一 个 新 的 记录 
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列表 。 
(1) 数据 提取 代码 





在 这 一 章 中 , 我 们 最 为 关心 的 代码 是 数据 清洗 和 数据 抽取 部 分 , 所 以 直接 阅读 下 面 的 代码 就 


























可 以 了 。 在 这 里 ， 程 序 会 逐 行 处 理 电 子 邮 件 中 的 内 容 ， 目 的 是 找 出 关键 的 三 个 邮件 头 部 信息 : 
In-Reply-To、Message-ID 和 Date。 代 码 中 使 用 正则 表达 式 来 搜索 与 组 织 数 据 ， 就 像 我 们 在 





前 面 的 方法 一 中 那样 ， 对 头 部 信息 进行 了 拆 分 并 提取 出 相应 的 数据 : 


for line in f: 
irt = re.search('(InN-ReplyN-To: «)(.«?)G0', line) 
mid = re.search('(MessageNM-ID: <)(.+?)@', line) 
dt = re.search('(Date: )(.«?)Nr', line) 
XE Irt: 
i - irt.group(2) 
if mid: 
m - mid.group(2) 
A dts 
d = dt.group(2) 


我 们 为 什么 要 用 正则 表达 式 来 代替 树 形 结构 的 解析 方法 呢 ? 原因 主要 有 以 下 两 个 。 





(a) 因为 下 载 下 来 的 电子 邮件 不 是 HTML 格式 ， 所 以 我 们 不 能 使 用 父子 关系 的 树 形 结构 来 描 


述 文件 内 容 。 因 此 ， 像 BeautifulSoup 这 样 基于 树 形 结构 的 方案 是 行 不 通 的 。 



































(b) 因为 电子 邮件 头 部 信息 的 结构 都 是 固定 的 ， 并 且 内 容 也 是 可 以 预测 的 〈 尤 其 是 我 们 需要 





的 那 三 条 数据 )， 所 以 我 们 可 以 采用 正则 表达 式 来 完成 这 个 处 理 。 
(2) 程序 输出 


程序 的 输出 就 是 打印 出 三 个 数字 ， 表 示 在 该 Google Group 中 以 小 时 为 计算 单位 的 情况 下 
均 方差 、 标 准 差 和 中 位 差分 别 是 多 少 。 下 面 是 代码 在 我 的 环境 中 运行 出 来 的 结 
178.911877395 


876.102630872 
18.0 



































nD LS 














这 意味 着 在 BigQuery Google Group 上 对 一 条 消息 的 平均 响应 时 间 是 18 小 时 。 现在 让 我 们 
究 一 下 怎么 从 男 一 种 数据 源 网 络 论坛 一 一 中 提取 类 似 的 数据 ,你 觉得 网 络 论坛 中 的 消息 
会 怎么 样 呢 ? 更 快 、 更 慢 ， 还 是 跟 Google Group 上 一 样 ? 
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再 研 











向 应 


TI 


在 这 个 项 目 中 我 们 要 研究 的 网 络 论坛 来 自 一 家 名 为 DocuSign 的 公司 。 他 们 也 把 对 开发 者 的 支 
持 转移 到 Stack Overflow 上 了 ,， 但 同时 对 之 前 基于 网 络 的 开发 者 论坛 做 了 归档 处 理 ， 并 且 可 以 在 
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线 访问 。 当 时 我 正在 他 们 的 网 站 上 闲 游 ， 直 到 发 现 了 下 载 旧 论 坛 消 
法 比 Google Groups 的 例子 要 多 ， 比 如 数据 的 自动 化 收集 。 


1. 第 一 步 : 收集 指向 HTML 文 件 的 RSS 信 息 








息 的 方法 。 这 里 演示 的 处 理 方 

















DocuSign 开 发 者 论坛 中 有 几 千 条 消息 。 我 们 可 以 组 织 一 份 URL 列 表 来 指向 所 有 的 消息 或 是 讨 





论 主题 ， 这 样 就 可 以 用 代码 实现 自动 下 载 ， 更 高 效 地 提取 回复 时 间 。 


要 实现 这 个 功能 , 首先 需要 的 是 拿 到 所 有 讨论 主题 的 URL。 我 发 现 DocuSign 在 Dev-Zone 开 发 
者 站 点 上 的 归档 文件 地 址 为 https://community.docusign.com/t5/DevZone-Archives-Read-Only/ct-p/ 




















dev zone, 


网 站 看 起 来 和 下 面 的 浏览 需 截 图 一 样 : 





DocuSign Community > DevZone Archives - Read-Only 


Community 

DevZone Archives - Read-Only 
TITLE 

® Announcements 


DocuSign ESIGN Hackathon (READ ONLY) 
The Official Community Board of the DocuSign Hackathon 


DevCenter Program Feedback (READ ONLY) 
use this board to give feedback on the processes, the service and the tools. 


DocuSign API Integration (.NET) (READ ONLY) 
DocuSign API Integration (Java) (READ ONLY) 
DocuSign API Integration (PHP) (READ ONLY) 


DocuSign API Integration (Ruby, Salesforce and Other) (READ ONLY) 


e. 9 9 9? 9€ 


Misc. Dev Archive (READ ONLY) 
This is a place to ask questions that didn't fit into any other board. 





POSTS NEW 








我 们 当然 不 想 挨个 点 击 论坛 中 的 每 一 个 链接 , 然后 手工 把 每 条 


消息 保存 下 来 。 要 是 那样 做 的 


话 ， 差 不 多 得 花 一 辈子 时 间 ， 太 烦 了 。 难 道 就 没有 别 的 什么 好 办 法 了 吗 ? 


DocuSign 网 站 的 帮助 页 面 已 经 表明 ， 通 过 下 载 Really Simple Syndication (RSS ) 文件 可 以 获 
取 每 个 论坛 中 最 新 发 布 的 主题 和 消息 。 这 样 的 话 就 可 以 利用 RSS 文 件 自动 收集 网 站 上 各 种 讨论 话 











题 的 URL 信 息 。 而 我 们 最 为 关注 的 RSS 文 件 只 有 开发 者 支持 论坛 ( 
RSS 文 件 可 以 从 下 面 的 地 址 获取 : 


并 非 广告 或 销售 论坛 )。 这 些 


口 https:/community.docusign.com/docusign/rss/board?board.id=upcoming releases 
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CI https://community.docusign.com/docusign/rss/board?board.id-DocuSign Developer Connection 

O https://community.docusign.com/docusign/rss/board?board.id-Electronic Signature API 

O https://community.docusign.com/docusign/rss/board?board.id-Java 

CI https://community.docusign.com/docusign/rss/board?board.id-php api 

LI https://community.docusign.com/docusign/rss/board?board.id-dev other 

Q https://community.docusign.com/docusign/rss/board?board.id-Ask A Development Question 
Board 


我 们 可 以 通过 浏览 器 访问 列表 中 的 每 一 个 URL (或 者 只 访问 其 中 的 一 个 )。 由 于 文件 是 RSS 

















格式 的 ， 所 以 看 起 来 像 是 带 有 标签 的 半 结 构 化 文本 文件 ， 与 HTML 比 较 类 似 。 把 访问 到 的 RSS 文 
件 保存 到 本 地 系统 并 为 每 个 文件 添加 一 个 .rss 文 件 扩展 名 。 在 整个 处 理 结束 的 时 候 ， 你 应 该 拿 到 
至 少 七 个 RSS 文 件 ， 每 一 个 文件 能 找到 与 上 面 列表 中 相对 应 的 URL。 


























每 个 RSS 文 件 的 内 容 都 是 关于 论坛 中 各 个 讨论 话题 的 元 数据 ， 当 中 包括 一 些 在 这 个 阶段 我 们 





迫切 需要 的 数据 : 每 个 讨论 话题 对 应 的 URL 地 址 。 用 文本 编辑 器 随便 打开 其 中 一 个 RSS 文 件 ， 你 
就 可 以 定位 到 我 们 需要 的 URL。 具体 形式 看 起 来 应 该 跟 下 面 的 例子 差不多 , 从 文件 的 内 部 可 以 看 


出 , 











每 个 讨论 话题 都 含有 这 样 的 数据 : 
<guid>http://community.docusign.com/t5/Misc-Dev-Archive-READ-ONLY/ 


Re-Custom-CheckBox-Tabs-not-marked-when-setting-value-to-quot-X/m- 
p/28884#M1674</guid> 


现在 我 们 可 以 编写 程序 来 遍历 每 一 个 RSS 文 件 ， 从 而 找 出 与 之 关联 的 URIL 数 据 ， 接 着 访问 这 





























些 地 址 , 提取 出 我 们 希望 得 到 的 回复 时 间 。 在 下 一 节 中 , 我 们 会 把 这 个 过 程 划分 为 一 系列 小 步骤 ， 
并 在 后 面 使 用 程序 来 演示 如 何 完成 整个 工作 。 











2. 第 二 步 : 从 RSS 中 提取 URL， 收 集 并 解析 HTML 

在 这 一 步 中 ,我 们 将 编写 一 个 程序 来 完成 以 下 步骤 。 

(1) 打开 我 们 在 第 一 步 中 保存 下 来 的 每 一 个 RSS 文 件 。 

Q) 每 当 碰 到 <guid> 和 </guid> 的 标签 组 合 的 时 候 , 就 提取 其 中 的 URL 信 息 并 把 它 添加 到 一 




















个 列表 中 。 


(3) 根据 列表 中 的 每 一 个 URL， 下 载 其 对 应 的 HTML 文 件 。 

(4) 读 取 HTML 文 件 内 容 ， 并 抽取 原始 消息 的 发 布 时 间 和 对 应 的 每 一 条 回复 消息 的 回复 时 间 。 
(5) 计算 平均 差 、 中 位 差 和 标准 差 ， 这 跟 我 们 当时 在 第 一 部 分 中 做 的 差不多 。 

下 面 的 Python 代 码 会 完成 这 些 步骤 。 看 完 代码 之 后 我 们 将 详细 说 明 数 据 抽取 部 分 的 内 容 : 
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import os 
import re 
import urllib2 
import datetime 
import numpy 


alllinks [] 
timelist = [] 
for filename in os.listdir(os.getcwd()): 
if filename.endswith('.rss'): 
f - open(filename, 'r') 
linktext - '' 
linkürl =" 
for line in f: 
# 找 出 讨论 主题 的 的 URL 


linktext = re.search('(«guid») (.+?) (<\/guid>)', line) 


if linktext: 
linkurl- linktext.group(2) 
alllinks.append(linkurl) 
f.close() 


mainmessage - '' 
reply - '' 
maindateobj - datetime.datetime.today() 
replydateobj - datetime.datetime.today() 
for item in alllinks: 
print Sese 
print "working on thread\n" + item 
response - urllib2.urlopen(item) 
html - response.read() 
# 定义 一 个 用 于 匹配 时 间 蕉 的 正则 表达 式样 式 
tuples = re.findall('lia-message-posted-on\">\s+<span 
class=\"local-date\">\\xe2\\x80\\x8e(.*?)<\/span>\s+<span 
class=\"local-time\">([\w:\sAM|PM]+)<\/span>', html) 
mainmessage = tuples[0] 
if len(tuples) » 1: 
reply - tuples[1] 
if mainmessage: 
print "main: " 
maindateasstr = mainmessage[0] + " " + mainmessage[1] 
print maindateasstr 
maindateobj = datetime.datetime.strptime(maindateasstr, 
'$m-$d-$Y %I:%M $p') 


if reply: 
print "reply: " 
replydateasstr = reply[0] + " " + reply[1] 


print replydateasstr 
replydateobj - datetime.datetime.strptime(replydateasstr, 
'$m-$d-$Y %I:%M $p') 


# 只 针对 有 回复 的 数据 进行 时 间 差 计算 
difference = replydateobj - maindateobj 
totalseconds - difference.total seconds() 
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timeinhours =  (difference.days*86400«difference.seconds)/3600 
if timeinhours » 1: 

print timeinhours 

timelist.append(timeinhours) 


print "when all is said and done, in hours:" 
print numpy.mean(timelist) 

print numpy.std(timelist) 

print numpy.median(timelist) 


(1) 程序 状态 


在 程序 工作 的 过 程 中 , 它 会 打印 出 一 些 状 态 信 息 , 这 样 我 们 就 可 以 知道 它 是 否 还 处 在 工作 的 
状态 中 。 状态 信息 与 下 面 的 内 容 类 似 , 并 且 每 次 从 RSS 文 件 中 找到 URL 时 都 会 有 这 样 的 信息 输出 : 














cn on thread 
http://community.docusign.com/t5/Misc-Dev-Archive-READ-ONLY/Can-you- 
disable-the-Echosign-notification-in-Adobe-Reader/m-p/214734M1156 
main: 

06-21-2013 08:09 AM 

reply: 

06-24-2013 10:34 AM 

74 


这 里 的 74 表 示 在 当前 这 个 话题 中 , 第 一 条 提问 消息 的 发 布 时 间 与 第 一 条 回复 消息 的 发 布 时 间 
经 过 四 舍 五 人 之 后 的 差 值 ( 约 为 三 天 又 两 个 小 时 )。 


(2) 程序 输出 


在 得 到 结论 的 时 候 , 程序 会 分 别 打 印 出 平均 差 、 标 准 差 和 以 小 时 为 单位 的 平均 回复 时 间 , 这 
与 我 们 在 第 一 部 分 的 Google Groups 程 序 中 做 的 一 样 : 


when all is said and done, in hours: 
695.009009009 

2506.66701108 

20.0 











看 起 来 DocuSign 论 坛 上 的 回复 时 间 比 Google Groups 还 要 慢 一 些 。Google Groups 需 要 18 小 时 
比 ， 它 则 需要 花费 20 个 小 时 ,不 过 好 在 这 两 个 数字 还 是 在 比较 接近 的 范围 内 。 你 的 实验 结果 可 能 
会 有 所 不 同 ， 这 是 因为 总 有 新 的 消息 不 断 地 加 入 实验 文件 。 


(3) 数据 提取 
我 们 的 重点 是 数据 提取 。 让 我 们 进一步 看 看 程序 到 底 做 了 些 什 么 。 下 面 是 最 为 重要 的 代码 : 


tuples = re.findall('lia-message-posted-on\">\s+<span class=\"local- 
date\">\\xe2\\x80\\x8e(.*?)<\/span>\s+<span class=\"local- 
time\">([\w:\sAM|PM]+)<\/span>', html) 


» 
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就 像 前 面 的 那些 例子 一 样 , 这 段 代 码 也 是 依靠 正则 表达 式 实现 的 。 但 这 里 的 表达 式 看 起 来 乱 
得 一 塌 糊 涂 。 也 许 我 们 用 BeautifulSoup 会 有 所 改善 吧 ? 那 就 让 我 们 先 看 一 下 原始 的 HTML 内 容 ， 
这 样 就 可 以 充分 理解 这 段 代码 的 含义 , 并 能 更 好 地 判断 是 否 应 该 换 一 种 实现 方式 。 下 面 的 截图 显 
示 的 是 页 面 在 浏览 器 中 的 样子 。 我 们 需要 的 时 间 信 息 在 截图 中 加 上 了 注释 : 


z 








r 








DocuSign Community » DevZone Archives - Read-Only > Misc. Dev Archive (READ ONLY) > Get user permission/type details 
Topic Options v 4 Message Lising « Previous Topic Next Topic » 


Rd User et user permission /type details sw) Orione v 
Gr 


V integrate docusign agi service in my application via SOAP, i aiready validate the used bul now i want to know that how can i get user 
more than one user attached with same account id and | want to check whether user have sender permission, 










Posts: 2 permission's.. means 
Registered: 06-18-2013 viewer permissicn or permission.. 
Kindiy let me know via whMh service i get that information 
i try to get information from nt Manager Service" but i received error message stated "invalid user" 





Message Time 
Report Inappropriate Content ^ » 
Me: 1 0f 2 (234 Views) Everyone's Tags: user permission. usert... View All (1) 0 Kudos ans 
Add Tag.. 
sampleAcount Re: Get user permission/type details [ New Options v 
Casual DocuSign User P YP 1 
G 06-25-2013 12:11 AM 
-" c i still encountered samo pi .. no luck so far.. i really appritiate if some one help me in this topic.. 
Posts: 2 Thanks In advance.. 
Registered: 06-18-2913 
Report Inappropriate Content Aid Tag Response Time 0 Kudos are 


Message 2 cf 2 (251 Views] 














底层 的 HTML 又 是 什么 样子 呢 ?” 那 正 是 我 们 的 程序 需要 解析 的 。 从 HTML 的 内 容 中 我 们 可 以 
发 现 , 原始 消息 的 日 期 信息 分 布 在 几 处 不 同 的 地 方 , 但 原始 消息 和 回复 消息 的 日 期 和 时 间 组 合 只 
在 页 面 上 打印 了 一 次 。 下 面 是 HTML 的 内 容 (为 了 方便 查看 ，HTML 经 过 简单 的 压缩 处 理 ， 并 移 
除了 一 些 多 余 的 空 行 ): 


«p class-"lia-message-dates lia-message-post-date lia-component-post- 
date-last-edited" class-"lia-message-dates lia-message-post-date"- 
«span class-"DateTime lia-message-posted-on lia-component-common- 
widget-date" class-"DateTime lia-message-posted-on"» 

«span class-"local-date"»06-18-2013«/span» 

«span class-"local-time"»208:21 AM«/span» 

















«p class-"lia-message-dates lia-message-post-date lia-component-post- 
date-last-edited" class-"lia-message-dates lia-message-post-date"- 
«span class-"DateTime lia-message-posted-on lia-component-common- 
widget-date" class-"DateTime lia-message-posted-on"» 

«span class-"local-date"»06-25-2013«/span» 

«span class-"local-time"»12:11 AM«/span-» 
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结果 内 容 明显 可 以 用 正则 表达 式 来 解决 , 只 要 我 们 编写 一 个 正则 表达 式样 式 就 可 以 一 次 性 找 
到 这 两 种 类 型 的 消息 。 在 代码 里 , 我 们 把 第 一 次 找到 的 内 容 当 作 原 始 消息 处 理 ， 而 接 下 来 的 则 当 
作 回 复 消息 处 理 ， 请 看 下 面 的 代码 : 

mainmessage = tuples[0] 


if len(tuples) » 1: 
reply - tuples[1] 


我 们 本 来 也 可 以 采用 BeautifulSoup 这 样 基于 树 形 结构 的 解决 方案 , 但 这 就 不 得 不 处 理 两 套 一 
模 一 样 的 日 期 组 合 ， 因 为 它们 对 应 的 span 标 签 样式 是 完全 相同 的 ， 即 使 我 们 将 解析 范围 扩展 到 
上 一 层 父 元 素 (<p> 标 签 )， 也 要 面 对 相 同样 式 的 问题 。 所 以 ,解析 这 样 的 树 形 结构 要 比 之 前 的 
方法 二 复杂 得 多 。 


如 果 你 就 是 想 用 BeautifulSoup 来 完成 数据 提取 ， 我 的 建议 是 先 用 浏览 器 的 Developer Tools 
功能 好 好 观察 一 下 页 面 的 结构 ， 比 如 在 Chrome 浏 览 器 里 ， 你 可 以 将 鼠标 移 到 你 想 要 查看 的 元 素 
上 一 一 也 就 是 这 个 项 目 中 的 日 期 和 时 间 部 分 一 一 点 击 鼠 标 右键 ， 然 后 选择 Inspect Element。 这 样 
就 会 打开 一 个 Developer Tools 面 板 ， 你 可 以 从 完整 的 文档 树 中 找到 对 应 数据 的 所 在 位 置 。 每 个 
HTML 元 素 左 侧 的 第 头 符号 表明 该 元 素 是 否 还 有 子 节点 。 这 个 时 候 , 你 可 以 决定 如 何以 编程 的 方 
式 来 定位 树 形 结构 中 的 目标 元 素 , 并 进一步 做 好 辨别 不 同 节点 的 计划 。 这 项 任务 的 细节 无 法 在 此 
尽 述 ， 所 以 我 会 把 它 留 作 练习 。 






























































5.6 小结 


在 这 一 章 中 , 我 们 学 习 了 一 些 行 之 有 效 的 数据 分 离 技 术 。 在 厨房 煲汤 时 ,我 们 总 会 使 用 一 种 
过 滤 工 具 把 不 想 要 的 骨头 和 蔬菜 残 叶 过 滤 掉 ,只 让 香 浓 可 口 的 汤水 流入 容器 中 。 这 种 思路 同样 适 
用 于 在 数据 科学 厨房 中 提取 网 页 中 的 数据 。 我 们 需要 设计 一 种 清洗 计划 ， 只 保留 需要 的 数据 ， 去 
除 不 需要 的 HTML 内 容 。 


学 习 过 程 中 , 我 们 掌握 了 两 种 从 HTML 页 面 中 提取 数据 的 心智 模型 ,它们 分 别 是 行 分 隔 模 型 
和 树 形 结构 模型 ,然后 又 深入 学 习 了 三 种 解析 HTML 页 面 的 有 效 方法 ;正则 表达 式 , BeautifulSoup, 
还 有 基于 Chrome 浏 览 器 的 Scraper 工 具 。 最 后 ,我们 将 所 学 的 知识 融合 到 一 起 ,通过 从 电子 邮件 
和 HTML 页 面 收集 与 提取 数据 ， 共 同 完成 了 一 个 完整 的 项 目 。 


像 电子 邮件 和 HTML 这 样 的 文本 数据 并 不 难 清 洗 , 那 二 进 制 文 件 又 如 何 呢 ? 在 接 下 来 的 一 童 
中 ， 我 们 将 学 习 如 何 从 难度 更 大 的 PDF 文件 中 抽取 数据 。 




















清洗 PDF 文件 中 的 数据 








在 上 一 章 中 我 们 得 知 , 要 想 从 大 量 数据 中 把 我 们 需要 的 数据 分 离 出 来 , 可 以 使 用 多 种 不 同 的 
方法 。 其 实 我 们 可 以 把 数据 清洗 过 程 想 象 成 制作 鸡汤 , 我 们 的 目的 是 滤 掉 鸡 骨 , 保留 剩 下 的 汤水 。 
但 是 ， 如 果 我 们 所 需要 的 数据 和 不 需要 的 数据 不 能 轻易 地 分 开 ， 那 又 该 怎么 办 呢 ? 


假设 我 们 有 一 杯 陈 年 美酒 ， 里 面 有 些许 杂质 。 乍 一 看 ， 可 能 确实 看 不 到 杯 中 有 沉积 物 存 在 。 
只 有 经 过 了 一 段 时 间 , 等 到 沉积 物 全 部 落 到 杯 底 , 我 们 才能 倒 出 纯净 清澈 的 美酒 。 在 这 种 情况 下 ， 
使 用 简易 的 过 滤器 是 不 可 能 把 酒 和 沉积 物 分 开 的 ， 我 们 得 用 一 个 特殊 的 工具 。 


在 这 一 章 ， 我 们 将 采用 各 种 实验 手段 来 提取 隐藏 在 PDF 里 的 好 东西 。 其 中 涉及 的 主题 包含 : 


O PDF 的 用 途 是 什么 ， 以 及 为 什么 很 难 从 PDF 文 件 中 抽取 数据 

口 怎么 复制 和 粘贴 PDF 文件 内 容 ， 以 及 如 何 应 对 不 能 复制 和 粘贴 的 情况 
口 怎么 从 目标 PDF 文件 中 保存 需要 的 页 面 

a 怎么 利用 Python 的 pdfMiner 包 中 的 工具 从 PDF 文件 中 抽取 文本 和 数字 

口 怎么 利用 基于 浏览 器 的 Java 应 用 程序 Tabula 从 PDF 文 件 中 抽取 表格 数据 
口 怎么 使 用 完整 的 付费 版 Adobe Acrobat 抽 取 表 格 数 据 

































































6.1 为 什么 PDF 文件 很 难 清 ; 


以 可 移植 文档 格式 (PDF ) 存储 的 文件 ,， 比 本 书 到 目前 为 止 描述 过 的 文本 文件 都 要 复杂 一 些 。 
PDF 文件 是 二 进 制 格式 的 ,最 初 由 Adobe Systems 公 司 发 明 , 后 来 发 展 成 为 一 种 开放 标准 , 许多 应 
用 程序 都 可 依靠 此 标准 来 创建 它们 自己 的 PDF 文档 。PDF 文 件 的 目的 在 于 提供 一 种 能 够 独立 于 专 
门 的 布局 软件 而 进行 文字 和 图 像 查 看 的 方法 。 


20 直 纪 90 年 代 初 期 是 桌面 应 用 易 盛 的 时 期 ， 每 种 图 形 设计 软件 包 都 有 其 专属 的 一 套 文件 格 
式 ， 而 且 这 些 软件 包 个 个 都 价格 不 菲 。 当 时 ,为 了 查看 Word 、Pagemaker 或 Quark 文 档 ， 你 必须 使 
用 创建 这 些 文档 的 软件 来 打开 它们 。 对 于 早期 的 网 络 环境 来 说 ,情况 可 能 更 为 严重 ， 因 为 当时 没 
有 太 多 的 HTML 技术 可 以 用 来 创建 丰富 的 布局 , 但 即便 如 此 人 们 还 是 热衷 于 彼此 分 享 文件 。 这 就 
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自然 地 促使 PDF 成 为 一 种 厂商 中 立 的 布局 格式 。Adobe 把 Acrobat Reader 软 件 免费 开放 ， 供 人 们 下 
载 ， 这 使 得 PDF 格式 广 为 流 行 。 








这 里 有 一 个 关于 初期 Acrobat Reader 的 故事 。 在 Google 搜 索引 擎 中 输入 单词 
"click here”， 结 采集 中 的 第 一 条 记录 就 是 Adobe’s Acrobat PDF Reader download 
website, 而 且 这 一 状况 一 直 持 续 了 好 多 年 。 这 是 因为 许多 网 站 在 发 布 PDF 文 件 的 
NN 时 候 , 常常 配 上 一 名 “To view this file you must have Acrobat Reader installed. Click 
here to download it." ( 要 想 查 看 此 文件 ， 必 须 安 装 Acrobat Reader。 点 击 此 处 下 
载 。)。 因 为 Google 的 搜索 算法 使 用 链接 上 的 文字 来 获取 与 关键 字 有 关 的 网 站 ， 所 
以 关键 字 “click here” 对 应 的 结果 就 是 Adobe Acrobat 的 下 载 网 站 。 


PDF 至 今 还 被 用 于 创建 三 商 和 应 用 中 立 的 文件 , 这 些 文件 格式 有 着 纯 文 本 文件 无 可 比拟 的 多 
样 性 布局 。 当 我 们 以 不 同 版 本 的 Microsoft Word 查 看 同一 份 文档 时 ， 有 了 时候 内 容 看 起 来 会 不 一 致 ， 
这 可 能 体现 在 文档 内 嵌 的 表格 、 样 式 、 图 片 、 表 单 或 字体 上 。 而 导致 这 些 问 题 的 因素 有 很 多 ， 比 
如 操作 系统 的 不 同 或 是 安装 的 Word 版 本 不 同 。 就 算是 软件 包 或 版 本 都 兼容 ， 也 有 可 能 产生 一 些 
细微 的 差别 。 而 PDF 则 能 帮助 解决 这 些 问 题 。 


我 们 马上 就 会 明白 为 什么 PDF 要 比 纯 文 本 文件 难处 理 ， 因 为 它 本 身 是 二 进 制 的 ， 内 腐 字 体 、 
图 片 等 内 容 。 所 以 我 们 之 前 用 过 的 大 部 分 数据 清洗 工具 ， 如 文本 编辑 器 和 各 种 命令 行 工 具 
( less ),， 在 磁 到 PDF 文件 的 时 候 基 本 上 都 无 用 武之 地 了 。 但 幸运 的 是 ,我 们 还 有 别 的 方法 从 PDF 
文件 中 提取 数据 。 


















































6.2 简单 方案 一 一 复制 


假设 你 想 给 自己 倒 一 杯 甘 醇 可 口 的 红酒 , 可 一 不 小 心 酒 到 地 板 上 了 。 你 的 第 一 反应 可 能 会 觉 
得 很 泪 来 ,因为 整 条 地 毯 都 要 更 换 。 但 在 开始 收拾 之 前 ,你 最 好 像 有 经 验 的 老酒 保 那 样 处 理 一 下 
JU, 这 需要 准备 足够 的 苏打 水 和 一 条 湿 抹 布 。 在 这 一 节 , 我 们 也 要 为 即将 开启 的 文件 翻新 项 目 
做 些 准 备 工 作 。 这 些 方案 可 能 会 有 效 ， 也 可 能 无 效 ， 但 不 管 怎样 还 是 值得 一 试 的 。 
































6.2.1 我 们 的 实验 文件 


还 是 让 我 们 用 一 个 真实 的 PDF 文件 来 做 数据 清洗 练习 吧 。 为 了 不 让 实验 太 过 容易 , 我 们 得 找 一 
个 比较 复杂 的 文件 。 假 设 我 们 需要 从 皮 尤 研究 中 心 的 网 站 上 一 个 名 为 “IE College Worth It?” 的 文件 
中 拉 取 数据 。 该 PDF 文件 发 布 于 2011 年 ， 长 达 159 页 ， 其 中 含有 大 量 数 据 表格 ， 显 示 了 衡量 在 美国 
上 大 学 是 否 是 一 项 值得 的 投资 的 各 种 方式 。 我 们 要 做 的 就 是 找到 一 种 从 这 些 表 格 中 快速 提取 数据 的 
方法 ， 以 便 在 这 些 数 据 上 做 一 些 额 外 的 统计 工作 。 比 如 ， 下 面 就 是 报告 中 使 用 到 的 表格 之 一 。 
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Q.23/Q.24, BASED ON TOTAL" | 
Which of these would you say is the most important role colleges and universities play in society? 
4-year 4-year 2-year 
All Private Public Private / Public Eor profit | 
38 Prepare students to be productive 23 28 47 63 
members of the workforce 
27 Prepare young people to be responsible 48 31 14 8 
Citizens 
21 Ensure that all qualified students have 16 24 25 20 
equal access to a college education 
4 Contribute to the economic development 2 5 8 2 
of their region or locality 
4 Conduct rescarch to help solve medical, 5 8 3 1 
scientific, social, and other national 
Problems 
2 Provide continuing education for adults 2 1 1 3 
of all ages 
3 None is "very important" /No answer 4 4 3 2 








这 个 表格 非常 复杂 。 虽然 只 有 六 列 八 行 , 但 其 中 有 几 行 数据 占用 了 两 行文 本 ， 而 且 只 有 五 个 
列 有 标题 行 。 


M 完整 的 报表 可 以 在 皮 尤 研究 中 心 的 网 站 找到 : http;//www.pewsocialtrends. 
org/2011/05/15/is-college-worth-it/ ， 而 我 们 要 用 的 PDF 文件 位 于 : http://www. 
pewsocialtrends.org/files/2011/05/higher-ed-report.pdf, 


6.2.2 第 一 步 : 把 我 们 需要 的 数据 复制 出 来 


这 个 例子 中 要 使 用 的 实验 数据 可 以 从 PDF 文件 的 149 页 (文档 中 标注 的 页 码 是 143 ) 找到 。 如 
果 用 PDF 查看 工具 打开 文件 ， 比 如 Mac OS X 的 Preview， 然 后 选择 表格 中 的 数据 ， 我 们 会 发 现 一 
些 奇 怪 的 事情 。 举 个 例子 来 说 ， 即 使 我 们 没有 选中 页 码 (143 )， 它 也 会 自动 出 现在 选择 范围 中 。 
这 并 不 利于 我 们 的 实验 ,但 不 要 管 它 了 ,还 是 继续 吧 。 使 用 组 合 快捷 键 Command-C 或 是 菜单 Edit 
| Copy 把 数据 复制 出 来 。 
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143 
Q.23/Q.24, BASED ON TOTAL” 
Which of these would you say is the most important role colleges and universities play in society? 
4-year 4-year 2-year 
All Private Public Private/ Public Eor profit 
38 Prepare students to be productive 23 28 47 63 
members of the workforce 
27 Prepare young people to be responsible 48 31 14 8 
citizens 
21 Ensure that all qualified students have 16 24 25 20 
equal access to a college education 
+ Contribute to the economic development 2 5 8 2 
of their region or locality 
4 Conduct research to help solve medical, 5 8 3 1 
scientific, social, and other national 
Problems 
2 Provide continuing education for adults 2 1 1 3 
of all ages 
3 None is "very important"/No answer 4 4 3 2 











T 


Hk 


PDF 文 件 内 容 在 Preview 中 被 选中 的 术 











6.2.3 第 二 步 : 把 复制 出 来 的 数据 粘贴 到 文本 编辑 器 中 
下 面 的 截图 显示 的 是 复制 出 来 的 文本 被 粘贴 到 文本 编辑 器 Text Wrangler 中 的 样子 。 

















T 38 Prepare students to be productive 

2 members of the workforce 

3 27 Prepare young people to be responsible 

4 citizens 

5 21 Ensure that all qualified students have 

6 4-year 4-year 2-year Private Public Private/Public 
7 23 28 47 48 31 14 16 24 25 

8 For profit 

9 63 8 20 

10 143 

11 equal access to a college education 

12 4 Contribute to the economic development 2582 
3 of their region or locality 

14 4 Conduct research to help solve medical, 5831 
15 Scientific, social, and other national 

16 problems 

17 2 Provide continuing education for adults 2113 
18 of all ages 

19 3 None is "very important"/No answer 4432 





很 明显 ,数据 在 复制 粘贴 之 后 看 起 来 毫 无 顺序 。 而 且 当 中 包含 了 页 码 信息 ,数字 信息 也 不 是 
像 原先 那样 垂直 分 布 ， 而 是 全 都 变 成 水 平分 布 , 每 列 的 标题 位 置 也 错乱 了 。 虽然 有 些 数字 还 是 排 
列 在 一 起 ， 比 如 最 后 一 行 中 包含 了 数字 4,4,3,2， 但 在 粘贴 之 后 它们 变 成 一 个 数字 4432 了 。 如 果 采 
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用 手工 清洗 的 方法 , 这 得 花 上 相当 长 的 一 段 时 间 , 还 不 如 把 表格 里 的 数据 重新 录入 一 次 。 就 这 个 
PDF 文 件 来 说 ， 我 们 的 结论 就 是 得 采取 一 些 更 强 的 清洗 手段 。 





此 时 我 们 应 该 注意 的 是 , 这 个 PDF 文 件 的 其 他 内 容 还 是 比较 好 清洗 的 。 比 如 

>» 序言 ,即位 于 文件 第 三 页 的 纯 文字 部 分 , 只 需 使 用 前 面 提 到 的 数据 复制 技术 就 可 
以 把 数据 提取 出 来 。 其 实 难点 只 是 表格 里 的 数据 而 已 。 在 确定 一 种 数据 提取 方法 

之 前 ， 你 应 该 对 PDF 文 件 中 的 所 有 内 容 都 实验 一 下 ， 包 括 文本 数据 和 表格 数据 。 


6.2.4 第 三 步 : 轻 量 级 文件 


刚才 尝试 的 复制 粘贴 方法 并 不 奏效 , 所 以 我 们 得 找 出 更 多 可 以 使 用 的 方法 。 其 实 我 们 不 需要 
把 这 个 PDF 中 的 159 页 数据 都 抽取 出 来 ， 只 需要 识别 出 我 们 需要 的 ， 然 后 把 它们 保存 到 另 一 个 文 
件 中 就 行 了 。 


这 项 工作 可 以 在 Mac OSX 上 的 Preview 里 完成 。 通 过 菜单 File | Print... 开 启 打 印 对 话 框 ,在 Pages 
区 域 , 我 们 需要 键入 实际 想 要 复制 的 页 码 范 围 。 针 对 这 个 实验 来 说 , 我 们 只 需要 第 149 页 的 内 容 ， 
所 以 我 们 只 需 像 下 面 截图 那样 在 From: 和 to: 文 本 框 里 输入 149 就 可 以 了 。 


然后 从 底部 的 PDF 下 拉 框 中 选择 Open PDF in Preview。 之 后 你 会 在 新 的 窗口 中 看 到 一 个 只 有 
单个 页 面 的 PDF 文件 。 从 这 里 我 们 可 以 把 它 保 存 为 一 个 新 的 文件 并 对 它 重 新 命名 ， 比 如 
report149.pdf。 
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6.3 ”第 二 种 技术 一 一 pdfMiner 


文件 已 经 变 小 了 , 现在 我 们 可 以 试 试用 编程 的 方案 来 抽取 文本 数据 , 看 看 情况 是 不 是 会 有 转 
机 。pdfMiner 是 Python 的 一 个 包 ， 内 置 了 一 些 可 以 操作 PDF 文件 的 工具 。 在 这 个 实验 中 我 们 会 用 
到 一 个 叫 作 paf2txt 的 命令 行 工具 ,通过 这 个 工具 我 们 可 以 从 PDF 文档 中 抽取 文本 数据 。 也 许 这 
个 方法 可 以 帮 有 我 们 正确 地 拿 到 表格 里 的 数字 。 





























6.3.1 第 一 步 : 安装 pdfMiner 


启动 Canopy Python 环境 。 从 Canopy Terminal Window 中 运行 下 面 的 命令 : 
pip install pdfminer 


这 一 步 将 安装 pdfMiner 包 以 及 与 之 关联 的 命令 行 工 具 。 





B 关于 pdfMiner 以 及 它 自 带 的 pdf2txt 和 dumpPDF 工 具 的 全 部 文档 信息 ,可 以 
从 http://www.unixuser.org/~euske/python/pdfminer/ 获 得 。 


6.3.2 第 二 步 : 从 PDF 文件 中 提取 文本 


我 们 可 以 使 用 命令 行 工具 paf2txt .py 从 PDF 文 件 中 提取 文本 数据 。 为 此 ， 需 要 使 用 Canopy 
Terminal 并 转向 文件 所 在 目录 。 命 令 的 基本 格式 为 pdf2txt .py <filename>。 如 果 你 要 处 理 的 
是 一 个 包含 有 多 个 页 面 的 大 文件 (或 者 你 没有 像 上 面 那样 把 文件 变 小 )， 那 么 你 可 以 使 用 
pdf2txt.py -p149 <filename> 来 告诉 程序 只 处 理 第 149 页 中 的 内 容 。 


与 前 面 复制 与 粘贴 的 例子 一 样 ， 我们 不 单单 会 尝试 149 页 的 表格 ,也 会 实验 第 3 页 的 序言 。 为 
了 从 第 3 页 提取 文本 数据 ,我们 运行 下 面 的 命令 就 可 以 了 : 
































pdf2txt.py -p3 pewReport .pdf 


命令 运行 完成 之 后 ， 抽 取出 来 的 皮 尤 研究 中 心 的 序言 内 容 就 会 出 现在 命令 行 窗口 : 
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e o9 06 ch6 — Canopy Terminal — bash — 80x24 
(Canopy 64bit) flossmole2:ch6 megan$ pdf2txt.py -p3 HigherEdReport.pdf 





EMBARGOED FOR RELEASE AT 8 P.M. EDT ON SUNDAY, MAY 15 
Preface 


Sharply rising college costs, enrollments and student debt loads have touched of 
f a debate 
about the role of higher education in the 21st Century. 


This Pew Research Center report attempts to inform that debate. It is based on t 
wo surveys- 

one of the American public; the other of college presidents-that explore attitud 
es about the 

cost, value, quality, mission and payoff of a college education. The survey of 
college presidents 

was done in association with the Chronicle of Higher Education. 


As is the case with all Center reports, our research is not designed to promote 
any cause, 

ideology or policy proposal. Our only goal is to inform the public on important 
topics that 

shape their lives and their society. 














如 果 想 要 把 文本 保存 成 一 个 名 为 pewPreface.txt 的 文件 ， 只 需 为 命令 添加 一 个 重 定向 操作 : 


pdf2txt .py -p3 pewReport.pdf > pewPreface.txt 


那 149 页 里 的 表格 数据 该 怎么 处 理 呢 ? 如 果 用 pdf2txt 会 发 生 些 什么 呢 ? 我 们 可 以 试 着 运行 
一 下 下 面 的 命令 : 


pdf2txt.py pewReport149.pdf 


结果 看 起 来 比 复制 粘贴 确实 好 一 点 点 , 但 也 没有 我 们 期 望 的 那么 好 。 实 际 的 数据 输出 结果 如 
下 图 所 示 。 列 的 标题 和 数据 全 都 混杂 在 一 起 ， 而 且 不 同 列 的 数据 也 都 是 胡乱 排列 的 。 


ec ch6 — Canopy Terminal — bash — 80x24 


4-year 
Private 











23 


4-year 
Public 


31 





24 
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我 们 不 得 不 承认 这 个 实验 的 表格 数据 抽取 是 失败 的 ,虽然 pdfMiner 在 逐 行 的 文本 抽取 方面 很 
在 行 。 


不 同 的 工具 在 数据 抽取 上 会 有 不 同 的 效果 , 主要 取决 于 PDF 文件 内 容 的 格式 
s ue 


看 来 我 们 选 的 这 个 PDF 例子 确实 有 难度 ， 但 不 要 灰心 。 我 们 可 以 继续 探索 下 一 个 工具 ， 看 看 
能 有 什么 样 的 效果 。 
6.4 第 三 种 技术 一 一 Tabula 


Tabula 是 一 个 基于 Java 的 程序 ， 也 可 以 用 来 提取 PDF 文件 中 的 表格 数据 。 现 在 我 们 要 做 的 就 
是 下 载 Tabula 并 把 它 应 用 到 149 页 中 的 表格 上 。 





6.4.1 第 一 步 : 下 载 Tabula 
Tabula 可 以 从 http://tabula.technology/ 上 下 载 。 这 个 网 站 同时 还 提供 了 一 些 简单 的 下 载 指南 。 


A 在 10.10.1 版 本 的 Mac OS X AZ E, AFA T Java 6 来 运行 Tabula。 这 个 过 程 
Q 比较 简单 ， 只 需要 按照 屏幕 上 的 提示 来 操作 就 可 以 。 FE 





6.4.» 第 二 步 : 运行 Tabula 


从 下 载 下 来 的 .zip 归 档 文件 中 启动 Tabula。 在 Mac 系 统 中 ，Tabula 应 用 程序 文件 的 名 字 是 
Tabula.app。 如 果 你 愿意 的 话 ， 还 可 以 把 它 复 制 到 Applications 文 件 夹 。 


Tabula 启 动 的 时 候 ， 它 会 在 你 的 默认 浏览 器 中 新 开 一 个 标签 页 或 是 窗口 ， 并 把 地 址 设置 成 
http://127.0.0.1:8080/。 页 面 初始 部 分 的 截图 如 下 。 






































Upload a PDF Uploaded files 


Auto-Detect Tables No uploaded files yet. 
Table auto-detection can be time-consuming, 


especially for large PDFs. 


ee No file chosen 
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警告 说 自动 发 现 表 格 功能 会 花费 一 段 时 间 , 这 一 点 确实 是 真 的 。 这 是 因为 只 是 处 理 一 个 包含 
三 个 表格 的 单 页 面 文件 perResearch149.pdf, 表格 自动 发 现 就 耗费 了 整整 两 分 钟 时 间 , 并 且 还 在 最 
后 给 出 了 一 个 PDF 文 件 格 式 不 正确 的 错误 消息 。 


6.4.3 第 三 步 : 用 Tabula 提取 数据 


在 Tabula 读 取 文 件 后 ， 我 们 就 可 以 用 它 提 取 表 格 数据 了 。 用 你 的 鼠标 指针 选择 希望 提取 的 表 
格 。 我 的 做 法 是 围绕 第 一 个 表格 画 了 一 个 框 。 


Tabuls 一 共 花 费 了 30 秒 读 完 这 个 表格 ,结果 显示 如 下 。 




















Extracted tabular data 
4-year 4-year 2-year 
All Private Public Private/Public For profit 
38 Prepare students to be productive 23 28 47 63 
members of the workforce 
27 Prepare young people to be responsible 48 31 14 8 
citizens 
21 Ensure that all qualified students have 16 24 25 20 
equal access to a college education 
4 Contribute to the economic development 2 5 8 2 
of their region or locality 
q Conduct research to help solve medical, 5 8 3 1 
scientific, social, and other national 
problems 
2 Provide continuing education for adults 2 1 1 3 
与 之 前 的 数据 复制 粘贴 和 pdaf2txt 方 法 相 比 ， 这 次 数据 看 起 来 更 有 样 儿 了 。 不 过 如 果 你 对 











Tabula 读 出 来 的 表格 数据 还 是 不 满意 的 话 ， 可 以 反复 执行 这 个 操作 ， 清 除 选 择 ， 然 后 重新 绘制 选 


择 区 域 。 


6.4.4 第 四 步 : 数据 复制 


我 们 可 以 使 用 Tabula 里 的 Download Data 按 钮 把 文件 保存 成 合适 的 文件 格式 ， 比 如 CSV 或 
TSV。 从 前 面 几 章 的 工作 结果 中 我 们 已 经 知道 , 这 些 格式 都 可 以 根据 需要 在 电子 表格 或 文本 编辑 


带 中 进行 清洗 。 说 做 就 做 ， 赶 快 为 下 一 步 做 好 准备 吧 。 








6.4.5 ”第 五 步 : 进一步 清洗 
用 Excel 或 文本 编辑 器 打开 CSV 文 件 ， 然 后 仔细 观察 其 中 的 格式 和 内 容 。 由 于 之 前 我 们 在 抽 
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取 PDF 数 据 时 失败 过 很 多 次 , 所 以 这 一 次 也 很 容易 轻 言 放弃 。 但 是 回顾 一 下 以 往 学 过 的 清洗 知识 ， 
你 可 能 马上 就 会 猜 到 ， 数 据 还 有 进一步 清洗 的 余地 。 基 于 在 前 几 章 中 学 过 的 技术 , 我 们 可 以 执行 
以 下 步骤 来 轻松 地 完成 数据 清洗 任务 。 





(1) 我 们 可 以 把 所 有 占用 两 行 的 文本 单元 格 合并 成 一 个 单元 格 。 例 如 , 在 B 列 中 , 有 许多 跨行 
的 文本 。Prepare students to be productive 和 members of the workforce 应 该 作为 一 条 完整 的 语句 放 在 
同一 个 单元 格 里 。 相 似 的 情况 也 发 生 在 第 一 行 和 第 二 行 的 标题 中 〈4-year 和 Private 应 该 放 在 一 个 
单元 格 里 )。 要 在 Excel 中 把 这 些 内 容 清 理 掉 , 需要 在 B 列 和 C 列 之 间 创 建 一 个 新 列 。 然 后 使 用 函数 
concatenate() 把 B3:B4、B5:B6 等 单元 格 结合 起 来 。 再 使 用 选择 性 粘贴 ( Paste-Special ) 把 联结 
起 来 的 值 添 加 到 新 列 中 去 。 最 后 就 可 以 删除 不 再 需要 的 那 两 列 。 接 着 以 同样 的 操作 清洗 第 一 行 和 
第 二 行 的 标题 内 容 。 




















(2) 删除 行 与 行 之 间 的 空白 行 。 
这 些 步 又 都 完成 后 ， 数 据 看 起 来 应 该 是 下 面 的 样子 : 























» 











-J B à — D E F 

1 AI 4-year Private 4-year Public 2-year Private/Public For profit 

2 38 Prepare students to be productive members of the workforce 23 28 47 6: 

3 al 27 Prepare young people to be responsible citizens 48 31 14 8 
[4 | 21 Ensure that all qualified students have equal access to a college education 16 24 25 20 

5| 4 Contribute to the economic development of their region or locality 2 5 8 2 
6| 4 Conduct research to help solve medical, scientific, social, and other national problems 5 8 3 1 
EZ 2 Provide continuing education for adults of all ages 2 1 1 3 

8 3 None is "very important" /No answer 4 4 3 2 








与 剪 切 和 粘贴 数据 ， 或 是 使 用 命令 行 工具 相 比 ， 使 用 Tabula 看 起 来 需要 我 们 
M 多 做 许多 工作 。 而 事实 也 的 确 如 此 , 除非 你 的 PDF 文件 格式 规矩 得 不 得 了 。 记 住 ， 
Q 每 种 专项 工具 都 有 它们 存在 的 理由 , 但 我 们 仅 应 该 在 必要 的 时 候 才 使 用 它们 。 在 
执行 数据 清洗 操作 的 时 候 , 应 该 首先 选用 简单 的 解决 方案 , 然后 再 根据 需要 尝试 

难度 稍为 大 一 些 的 工具 。 


6.5 所 有 尝试 都 失败 之 后 一 一 第 四 种 技术 


Adobe Systems 出 售 一 种 付费 的 商业 版 Acrobat 软 件 ， 除 了 我 们 之 前 提 到 的 PDF 文件 读 取 功 能 
外 , 还 包括 一 些 别 的 功能 。 完 整 版 的 Acrobat 可 以 帮 我 们 创建 复杂 的 PDF 文件 , 并 以 各 种 方式 对 既 
存 的 文件 进行 操作 。 其 中 与 我 们 实验 有 关 的 一 项 功能 就 是 Acrobat 的 Export Selection As... o 




















要 想 使 用 这 个 功能 ， 先 要 启动 Acrobat 并 使 用 File Open 对 话 框 打 开 PDF 文件 。 文 件 打开 之 后 ， 
转 到 要 输出 的 数据 表格 所 在 的 页 面 。 下 面 的 截图 中 演示 的 是 如 何 选择 PDF 第 149 页 的 数据 。 用 鼠 
标 选 中 数据 ， 然 后 点 击 鼠 标 右键 并 选择 Export Selection As.…。 
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4-year 4-year 2-year | 

AN Private Public Private / Public Eor profi ! 
38 Prepare students to be productive 23 28 47 63 Copy 

members of the workforce Copy With Formatting 
27 Prepare young people to be responsible 48 31 14 8 . 

"S Edit Text 

21 Ensure that all qualified students have 16 24 25 Export Selection As... 
F ^ Contribute vac PE 2 5 8 Highlight Text 

of their region or locality Strikethrough Text 
4 Conduct research to help solve medical, 5 8 3 1 Add Note to Replace Text 

scientific, social, and other national Add Note to Text 
2 Provide continuing education for adults 2 1 1 ] "SE 

of all ages | Create Link 
3 None is "very important"/No answer 4 4 3 2 




















这 时 ，Acrobat 会 问 你 想 以 什么 方式 输出 数据 。CSV 格 式 便 是 选项 之 一 。 如 果 你 不 想 在 文本 编 


























辑 器 里 编辑 文件 , 那 Excel 工 作 短 ( .xl1sx ) 也 是 一 个 不 错 的 选择 。 不 过 Excel 也 可 以 用 来 打开 CSV 
文件 ， 所 以 我 决定 使 用 这 个 格式 ， 这 样 就 可 以 最 大 化 地 利用 Excel 和 文本 编辑 器 两 者 的 优势 。 





0.0.0 Export Selection As 





Save As: [table 


Tags: 


Where: | Desktop 





Word Document 

Word 97-2003 Document 
Excel Workbook 
PowerPoint Presentation 
Rich Text Format 

XML Spreadsheet 2003 


| HTML 
| Save to Online Account... | Formal aie un E TE E 
|! XML 1.0 











选择 好 文件 格式 后 ， 程 序 会 提示 我 们 设置 文件 的 名 字 和 存储 位 置 。 当 用 文本 编辑 髓 或 Excel 
打开 新 的 结果 文件 时 , 我 们 可 以 看 到 ， 这些 数据 看 起 来 与 前 一 节 表 格 里 的 数据 几乎 一 模 一 样 。 下 
面 就 是 CSV 在 Excel 中 打开 的 样子 。 























EE Kils jojojo B JL 





A B c D E F 
All 4-year Privat 4-year Public 2-year Privat For profit 
38 Prepare stud 23 28 47 63 
members of the workforce 
27 Prepare your 48 31 14 8 
citizens 
21 Ensure that := 16 24 25 20 
equal access to a college education 
4 Contribute te 2 5 8 2 
of their region or locality 
4 Conduct rese 5 8 3 1 
scientific, social, and other national 
problems 
2 Provide cont 2 1 1 3 
of all ages 
3 None is Över 4 4 3 2 








6.6 2 117 





这 时 ， 我 们 可 以 使 用 曾经 在 清洗 Tabula 数 据 时 用 过 的 清洗 流程 ， 
合并 成 一 个 单元 格 ， 然 后 再 删除 多 余 的 空 行 。 





6.6 小结 





把 B2:B3 这 样 的 跨行 单元 格 


这 一 章 的 目的 是 学 习 如 何 从 PDF 文件 中 导出 数据 。 就 像 酒 中 的 沉积 物 那 样 ，PDF 文 件 里 的 数 
据 初 看 起 来 也 是 很 难 分 离 的 。 但 与 倒 酒 的 被 动 过 程 不 同 ， 在 从 PDF 中 分 离 出 数据 的 过 程 中 ,我们 























经 历 了 许多 尝试 与 失败 。 我 们 学 会 了 四 种 清洗 PDF 数 据 的 方法 Ei 
和 Acrobat 导 出 。 每 种 工具 方法 都 有 自己 的 优势 与 缺陷 。 


O 复制 粘贴 成 本 低 ， 工 作 量 小 ， 但 对 于 复杂 的 表格 不 起 作用 。 





























央 与 粘贴 pdfMiner, Tabula 


O pdfMiner/Pdf2txt 是 免费 的 命令 行 工 具 ， 并 可 以 应 用 在 自动 化 处 理 中 。 针 对 大 量 数据 的 情 
况 也 可 以 使 用 。 但 与 复制 粘贴 一 样 ， 遇 到 某 些 类 型 的 表格 数据 就 无 计 可 施 了 。 
口 Tabula 需 要 我 们 做 一 些 额 外 的 设置 工作 , 并 且 该 产品 仍 处 于 开发 阶段 ， 有 时 候 还 会 给 出 一 





些 奇怪 的 警告 信息 。 与 其 他 方案 相 比 速度 也 相对 慢 一 些 。 但 它 的 输出 结果 非常 整洁 ， 即 


便 是 在 面 对 复 杂 的 表格 时 也 能 应 对 自如 。 





口 Acrobat 的 数据 输出 效果 与 Tabula 类 似 ， 几 乎 不 需要 做 任何 设置 ， 人 工 成 本 很 低 。 但 我 们 


得 支付 一 定 的 费用 才 可 以 使 用 它 。 











到 最 后 ， 我 们 拿 到 了 一 份 干净 的 数据 集 ， 可 以 直接 用 于 数据 分 析 或 者 是 长 期 存储 。 


在 接 下 来 的 一 章 中 ， 我 们 将 要 把 重点 放 在 以 关系 型 数据 管理 系统 (RDBMS ) 为 载体 的 长 期 
存储 的 数据 上 。 我 们 将 学 习 如 何 清洗 以 这 种 方式 存储 的 数据 ， 以 及 修正 一 些 常见 的 不 规则 数据 。 








RDBMS 清 洗 技术 








家 用 冰箱 全 都 自 带 置物 架 , 并 且 大 多 会 有 一 两 个 用 来 装 蔬菜 的 抽 居 。 不 过 如 果 你 去 过 家 庭 分 
类 商店 ， 或 是 与 专业 的 分 类 专家 交流 过 ， 就 会 发 现 有 各 种 各 样 的 存储 选项 可 供 我 们 选择 ,包括 蛋 
托 、 莹 士 盒 、 苏 打 水 枪 、 酒 架 、 剩 菜 标 记 系 统 ， 以 及 各 种 尺寸 、 可 扔 套 县 加 、 以 不 同 颜色 进行 区 
分 的 储 物色 等 。 但 这 些 真 的 都 是 我 们 需要 的 吗 ? 要 想 回 答 这 个 问题 ,你 得 先 问 问 自己 ,常用 的 食 
物 是 不 是 每 次 都 能 轻而易举 地 找到 ? 食物 是 不 是 占用 了 过 多 的 空间 ? 剩 下 的 食材 是 不 是 都 明确 
地 打上 了 标记 以 方便 确认 ? 如 果 答 案 全 都 是 否定 的 话 , 那么 分 类 专家 会 告诉 你 ,容器 和 标签 贴纸 
可 以 帮助 你 优化 存储 、 减 少 浪费 ， 让 你 的 生活 更 加 轻松 。 


对 于 关系 型 数据 库 管 理 系统 (Relational Database Management System, RDBMS ) 来 说 ， 情 
况 也 是 相同 的 。 作 为 经 典 的 长 期 数据 存储 解决 方案 ，RDBMS 可 以 说 是 现代 数据 科学 工具 箱 的 标 
配 。 但 与 此 同时 ,由 于 缺少 对 数据 库 细 节 内 容 的 考虑 , 我 们 常常 会 对 存放 其 中 的 数据 感到 一 丝 愧 
意 。 在 这 一 章 里 ， 我 们 会 学 习 如 何 设计 RDBMS， 而 并 非 像 一 两 个 置物 架 加 几 个 抽 居 那么 简单 。 
我 们 要 学 的 新 技术 可 以 让 RDBMS 的 存储 得 到 优化 ， 减 少 浪费 ， 使 我 们 的 工作 更 加 轻松 。 具 体 来 
w, RIT: 


口 学 会 找 出 RDBMS 中 的 异常 数据 

口 学 会 使 用 不 同 的 策略 来 清洗 不 同类 型 的 问题 数据 

a 学 会 因地制宜 地 创建 新 的 数据 表 来 存放 清洗 后 的 数据 ， 包 括 创建 子 表 和 查找 表 
a 学 会 编写 文档 ， 以 便 时 刻 掌握 数据 的 变化 



















































































7.1 准备 


为 了 能 够 顺利 地 完成 本 章 中 的 例子 ， 我 们 需要 准备 一 份 称 为 Sentiment140 的 流行 数据 集 。 建 
立 这 个 数据 集 是 为 了 帮助 我 们 了 解 Twitter 消息 中 的 正面 和 负面 情绪 。 我 们 不 是 真 的 要 做 情绪 分 
析 ， 只 是 想 要 把 它 导入 关系 型 数据 库 ， 然 后 用 来 做 一 下 数据 清洗 的 练习 而 已 。 


要 想 使 用 Sentiment140 数 据 集 ， 你 得 安装 好 MySQL 服 务 器 ， 就 跟 之 前 Enron 例 子 中 做 的 一 样 。 
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7.2 第 一 步 : 下 载 并 检查 Sentiment140 


我 们 要 使 用 的 Sentiment140 数 据 版 本 是 一 个 由 两 个 文件 组 成 的 数据 集 ， 这 个 数据 集 源 自 
Sentiment140 项 目 ， 可 以 从 网 站 http://help.sentiment140.com/for-students 获 取 相 关 的 项 目 信 息 。 要 
使 用 的 ZIP 文 件 是 由 斯 坦 福 大 学 的 几 个 研究 生 创建 的 ， 当 中 包含 了 推 文 以 及 根据 推广 内容 所 创建 
的 正 负面 情绪 数据 (分 为 0(、2、4 三 个 等 级 )。 由 于 这 个 文件 是 公开 的 ， 所 以 一 些 网 站 就 把 原版 的 
Sentiment140 文 件 添加 到 许多 大 型 推 文 数据 集中 。 但 在 这 一 章 我 们 只 需 使 用 原版 的 Sentiment140 
文本 文件 就 足够 了 , 这 个 文件 可 以 从 前 面 提 到 的 网 站 链接 中 获取 , 或 者 是 直接 从 http:/cs.stanford. 
edu/people/alecmgo/trainingandtestdata.zip 下 和 载 。 


下 载 ZIP 文 件 ， 解 压 ， 然 后 用 文本 编辑 器 查看 解压 出 来 的 两 个 CSV 文 件 。 你 马上 会 注意 到 ， 
其 中 一 个 文件 的 内 容 要 比 男 一 个 文件 多 得 多 , 不 过 它们 的 字段 个 数 是 却 是 相同 的 。 数据 是 使 用 去 
号 分 隔 的 ， 每 个 字段 都 采用 双 引 号 进行 了 封闭 处 理 。 对 于 每 个 字段 的 描述 信息 ， 可 以 从 上 一 上 段 
for-students 链 接 所 对 应 的 页 面 中 找到 。 
















































































7.3 第 二 步 : 清洗 要 导入 的 数据 


对 于 我 们 的 目的 一 一 学 习 如 何 清洗 数据 ,只 要 把 少量 数据 加 载 到 MySQL 数 据 表 中 就 足够 了 。 
既然 我 们 学 习 所 需 的 所 有 内 容 用 一 个 小 一 点 的 文件 就 能 搞定 ， 那 么 testdata.manual.2009.06.14.csv 
正 合适 。 

在 观察 数据 的 时 候 我 们 会 发 现 ， 有 些 地 方 的 数据 可 能 不 会 顺利 地 导 和 人 到 MySQL 数 据 库 。 问 
题 之 一 就 出 现在 文件 的 第 28 行 : 

"4","46","Thu May 14 02:58:07 UTC 2009","""booz allen""", 

在 关键 词 booz 的 前 面 和 关键 词 allen 的 后 面 分别 有 三 个 连续 的 双 引 号 """, 看 到 了 吧 ? 同样 
的 双 引 号 问题 在 第 41 行 的 歌曲 标题 P.Y.T 前 后 也 出 现 了 : 


"d","131","Sun May 17 15:05:03 UTC 2009","Danny 
Gokey","VickyTigger","I'm listening to ""P.Y.T"" by Danny Gokey..." 


这 个 问题 的 根源 是 ，MySQL 导 入 程序 是 通过 引号 来 界定 字段 文本 内 容 的 。 所 以 多 余 的 引号 
会 让 MySQL 错 误 地 认为 这 一 行 含有 的 字段 个 数 多 于 实际 的 个 数 。 

其 实 这 个 问题 也 不 难 修复 , 只 要 使 用 文本 编辑 器 的 查找 与 蔡 换 功能 就 能 解决 , 做 法 就 是 把 所 
有 的 """ "替换 成 一 个 "( 双 引 号 )， 把 所 有 的 "" 蔡 换 成 '〈 单 引号 )。 
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M 在 这 个 清洗 练习 中 ， 完 全 删除 "" 也 不 会 有 什么 负面 影响 。 只 需 在 替换 "" 的 
Q 时 候 将 替换 内 容 置 成 空 就 可 以 了 。 但 是 如 果 你 坚持 保留 原 有 的 推 文 形式 ， 那 在 替 
换 的 时 候 使 用 单 引号 或 转 义 后 的 双 引 号 \" 会 更 为 稳妥 。 
把 清洗 后 的 文件 内 容 保存 到 一 个 新 命名 的 文件 中 ， 比 如 cleanedTestData.csv。 现 在 可 以 往 
MySQL 中 导入 新 文件 了 。 


7.4 第 三 步 : 把 数据 导入 MySQL 


想 要 把 清洗 后 的 数据 文件 导入 MySQL， 需 要 使 用 3.1.3 节 “ 往 MySQL 中 导入 电子 表格 数据 ” 
中 介绍 的 方法 。 


(1) 通过 命令 行将 当前 工作 目录 切换 到 在 第 二 步 创建 的 新 文件 目录 。 这 个 新 文件 就 是 我 们 将 
要 导入 到 MySQL 的 数据 文件 。 


(2) 之 后 启动 MySQL 客 户 端 并 连接 到 数据 库 服务 器 : 


user8machine:-/sentiment140$ mysql -hlocalhost -umsquire -p 
Enter password: 


(3) 输入 你 的 登录 密码 ， 成 功 登 录 之 后 使 用 下 面 的 命令 在 MySQL 中 创建 数据 库 ， 该 数据 库 是 
为 了 下 一 步 创 建 数据 表 而 准备 的 : 


mysql» CREATE DATABASE sentiment140; 
mysql» USE sentiment140; 


(4) 接 下 来 需要 创建 存放 数据 的 数据 表 。 每 个 字段 的 数据 类 型 和 长 度 都 应 该 与 我 们 持 有 的 数 
据 相 匹配 。 有 些 字 段 需要 采用 变 长 字符 类 型 ， 并 且 需 要 指定 具体 长 度 。 也 许 此 时 我 们 并 不 知道 该 
为 每 个 字段 指定 什么 样 的 长 度 ， 不 过 我 们 可 以 使 用 清洗 工具 来 获取 一 个 合适 的 长 度 范围 。 


(5) 如 果 在 Excel ( 也 可 以 使 用 Google Spreadsheets ) 中 打开 CSV 文 件 ， 可 以 运行 一 些 简 单 的 函 
数 来 找到 文本 字段 的 最 大 长 度 。 比 如 使 用 函数 len ( ) 可 以 返回 文本 字符 串 中 的 字符 个 数 ， 使 用 函 
数 max() 可 以 找 出 一 个 指定 范围 内 的 最 大 数字 。 在 打开 CSV 文 件 的 前 提 下 ， 可 以 应 用 这 些 函 数 来 
找 出 在 MySQL 中 需要 以 变 长 字符 为 类 型 的 字段 的 长 度 。 


下 面 的 截图 显示 的 是 使 用 函数 解决 这 个 问题 的 具体 操作 方法 。 其 中 函数 len O 应 用 在 G 列 上 ， 
H 列 上 的 函数 max () 应 用 在 G 列 。 





































































































-AT 8 C D E F | G H li 
1 14 3 Mon May 11 03:17:40 UT( kindle2 tpryan Gstellargirl | loooooooow -LEN(F1) -MAX(G61:6498) | 
2.4 4 Mon May 11 03:18:03 UTC kindle2 vcu451 Reading my kindle2... Lov -LEN(F2) 

3 E 5 Mon May 11 03:18:54 UT( kindle2 chadfu Ok, first assesment of the -LEN(F3) 
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G 列 和 H 列 分 别 演示 了 如 何在 Excel 中 获取 文本 列 的 长 度 以 及 长 度 的 最 大 值 。 


(6) MES Cal 每 个 字 D a 还 可 ms pd 快捷 键 。 利 用 下 面 的 数组 公 
式 可 以 快速 地 将 文本 类 型 只 要 KEMAS 
函数 之 后 用 1 Te nU IT: 


-max(len(f1:f498)) 


HARER EUM FEE FE ESCAS. E DUBUSEHOSEDV RU SCA Je KI E , 并 且 这 个 函数 只 占用 
一 个 单元 格 而 不 需要 逐个 计算 单元 格 的 长 度 。 


在 运行 这 些 函 数 之 后 ， 我 们 可 以 看 到 推 文 的 最 大 长 度 是 144 个 字符 。 









































7.4.1 发 现 并 清洗 异常 数据 


你 也 许 会 好 奇 ， 为 什么 这 个 数据 集中 的 推 文 会 有 144 个 字符 ，Twitter 明 明 规 定 每 个 推 文 的 最 
大 长 度 为 140 个 字符 。 其 实 这 是 因为 在 Sentiment140 数 据 集中 ， 有 时候 字符 & 会 被 转 义 为 等 价 的 
HTML 编 码 xamp, 但 有 时 不 会 。 类 似 的 情况 也 会 发 生 在 其 他 字符 上 , 比如 符号 < 会 被 转 义 为 &1t ; ， 
符号 > 会 被 转 义 为 cgt ;。 所 以 ， 对 于 少数 较 长 的 推广 来 说 ， 这 些 字符 的 存在 可 以 轻松 地 突破 140 
个 字符 的 限制 。 因 为 我 们 知道 这 些 HTML 编 码 字 符 并 非 出 自 推 文 的 原始 作者 ， 而 且 这 种 转 义 时 而 
发 生 时 而 不 会 发 生 ， 所 以 我 们 称 这 些 数据 为 异常 数据 。 


要 消 洗 这 些 异常 数据 ， Mr 第 一 个 方案 是 先 把 数据 导入 数据 库 , 然后 在 数 
据 库 端 进行 数据 清洗 。 第 二 个 方案 是 在 Excel 或 文本 编辑 器 中 进行 清洗 。 为 了 区 分 这 两 种 技术 之 
间 的 差别 ,我们 会 把 两 个 方案 都 演示 一 遍 。 首 先 ,使 用 电子 表格 或 文本 编辑 器 中 的 查找 与 替换 功 
能 对 下 面 表格 中 的 字符 进行 转换 。 我 们 可 以 先 把 CSV 文 件 中 的 数据 导入 Excel， 看 看 到 底 有 多 少 
清洗 工作 可 以 在 这 里 完成 。 













































































HTML 编 码 替换 字符 替换 个 数 用 于 查找 个 数 的 Excel 函 数 
&lt; « 6 -COUNTIF(Fl:F498,"*&lt*") 
&gt; > 5 -COUNTIF(Fl:F498,"*&gt*") 
&amp; & 24 -COUNTIF (F1:F498, "*&amp*") 





前 两 个 字符 的 替换 可 以 通过 Excel 中 的 查找 与 替换 轻松 完成 。HTML 编 码 &lt; 和 &gt ;全 会 被 
替换 掉 。 请 看 下 面 的 文本 示例 : 


I'm listening to 'P.Y.T' by Danny Gokey &1t;3 &1t;3 &1t;3 Aww, he's so amazing. I &1t;3 
him so much :) 


上 面 的 文本 被 修改 成 : 
I'mlistening to 'P.Y.T' by Danny Gokey «3 «3 «3 Aww, he's so amazing. I «3 him so much :) 


但 是 ， 当 我 们 尝试 使 用 Excel 把 gamp; 替换 成 < 时 ， 有 可 能 会 遇 到 下 面 的 错误 : 
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A Find entire cells only 


Search: By Rows 


x That function is not valid. 





Find what: 
&amp; 

Close 
Replace with: 
& Replace 
Within: Sheet S Match case Replace All 








在 有 些 操作 系统 上 ， 或 是 某 些 版 本 的 Excel 中 ,在 使 用 字符 & 作 为 替换 内 容 时 会 有 问题 。 如 果 





在 操作 时 恰好 碰 到 这 样 的 错误 ， 就 需要 采用 一 些 不 同 的 方法 。 


口 可 以 使 用 搜索 引擎 找 出 针对 这 个 错误 的 Excel 解 决 方案 。 
口 可 以 把 CSV 文 本 数据 放 到 文本 编辑 器 里 ， 执 行 查找 与 替换 操作 。 

















系 ， 因 为 我 们 会 在 数据 库 里 进行 清洗 。 


口 可 以 先 继续 推进 工作 , 把 数据 全 都 放 到 数据 库 里 , 即便 其 中 含有 奇怪 的 samp ;字符 也 没 关 


正常 情况 下 ,如果 数 据 可 以 在 数据 库 以 外 的 地 方 清洗 ,我 就 不 会 把 脏 数据 放 到 数据 库 里 。 但 
这 一 章 要 讲 的 就 是 如 何在 数据 库 内 部 做 数据 清洗 , 所 以 还 是 让 我 们 把 清洗 一 半 的 数据 导入 到 数据 
































库 中 ， 然 后 再 进一步 清洗 数据 表 中 的 &amp; o 











7.4.2 ”创建 自己 的 数据 表 





要 想 把 清洗 一 半 的 数据 转移 到 数据 库 中 ， 需 要 先 编写 创建 数据 表 用 的 CREATI 





数据 库 中 运行 。CREATE 语 句 如 下 : 


mysql» CREATE TABLE sentiment140 ( 
"ES polarity enum('0','2','4') DEFAULT NULL, 
z^ id int(11) PRIMARY KEY, 
-> date of tweet varchar(28) DEFAULT NULL, 
=> query. phrase varchar (10) DEFAULT NULL, 
-> user varchar (10) DEFAULT NULL, 











EAJ, IATE 
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= tweet text varchar(144) DEFAULT NULL 
-» ) ENGINE-MyISAM DEFAULT CHARSET-utf8; 


这 条 语句 会 使 用 简单 快捷 的 MyISAM 引 党， 因为 我 们 并 不 需要 使 用 InnoDB 

的 行 级 锁 或 事务 这 样 的 功能 。 关 于 MyISAM 和 InnoDB 之 间 更 多 的 区 别 ， 请 参考 

S 存储 引擎 的 讨论 话题 : http://stackoverflow.com/questions/20148/myisam-versus- 
innodb。 


也 许 你 已 经 注意 到 ， 上 面 的 代码 中 仍旧 使 用 144 作 为 字段 tweet_text 的 长 度 。 这 是 因为 我 
们 还 没有 清洗 xamp ; 编码 的 缘故 。 但 就 算是 这 样 也 不 会 有 什么 问题 ， 因 为 我 们 知道 变 长 字符 类 型 
的 字段 不 会 使 用 额外 的 存储 空间 , 除非 真 的 需要 。 这 就 是 它们 被 称 作 变 长 字符 、 可 变 字 符 或 可 变 
字段 的 原因 。 如 果 这 些 额 外 的 长 度 确实 困扰 你 了 ， 那 稍 后 你 可 以 把 这 些 字段 的 长 度 修 改 成 140 个 
字符 。 
接 下 来 我 们 可 以 在 数据 文件 的 所 在 位 置 使 用 MySQL 命 令 行 程序 运行 下 面 的 数据 导入 语句 : 
mysql» LOAD DATA LOCAL INFILE 'cleanedTestData.csv' 

一 > INTO TABLE sentiment140 

-- FIELDS TERMINATED BY ',' ENCLOSED BY '"' ESCAPED BY 'V' 


-> (polarity, id, date of tweet, query phrase, user, 
tweet text); 


这 个 命令 会 把 之 前 清洗 过 的 CSV 文 件 加 载 到 新 创建 的 数据 表 中 。 执 行 完成 后 ,系统 会 像 下 面 
那样 显示 一 条 成 功 的 消息 ， 这 代表 498 行 记录 全 都 加 载 到 数据 表 中 了 : 


Query OK, 498 rows affected (0.00 sec) 
Records: 498 Deleted: 0 Skipped: 0 Warnings: 0 




























































































如 果 你 能 够 访问 像 phpMyAdmin 这 样 基于 浏览 器 的 接口 ， 或 者 是 像 MySQL 
Workbench 或 MySQL 版 本 的 Toad 这 样 的 桌面 应 用 程序 , 那 就 可 以 直接 在 这 些 工具 
y% 中 更 加 方便 地 执行 以 上 所 有 的 SQL 命令 ， 而 无 需 在 命令 行 中 手动 输入 ， 比 如 在 
Q phpMyAdmin 中 ， 你 可 以 从 Import 页 签 上 传 CSV 文 件 。 但 请 确保 文件 已 经 按照 7.3 
节 的 步骤 清洗 过 , 否则 文件 中 的 很 多 字段 都 会 出 错 , 这 个 错误 主要 还 是 由 引号 引 

起 的 。 


7.5 第 四 步 : 清洗 amp ;字符 


在 上 一 个 步骤 中 , 我 们 决定 推迟 对 gamp ;字符 的 清洗 , 因为 在 做 替换 操作 时 Excel 给 出 了 奇怪 
的 错误 。 既 然 我 们 已 经 完成 第 三 步 把 数据 存放 在 MySQL 里 了 ， 现 在 就 可 以 使 用 UPDATE 语 句 和 
replace () 函数 进行 后 续 的 数据 清洗 工作 。 使 用 下 面 的 SQL 查询 语句 会 将 所 有 的 gamp ;都 蔡 
换 成 & 
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UPDATE sentiment140 SET tweet text = replace(tweet text,'&amp;', '&'); 
函数 *eplace O0 的 工作 原理 与 Excel 或 文本 编辑 需 中 的 查找 与 替换 功能 完全 一 样 。 我 们 可 以 


看 到 ID 为 $94 的 推 文 ， 已 经 由 原来 的 #at&amp;t is complete fail 变 为 #at&t is complete 
fails 




















7.6 第 五 步 : 清洗 其 他 未 知 字符 


当 我 们 仔细 检查 字段 tweet_text 的 时 候 ， 可 能 会 发 现 一 些 奇怪 的 推 文 内 容 ， 比 如 ID 为 613 
和 2086 的 记录 : 





613, Talk is Cheap: Bing that, I?11 stick with Google 
2086, Stanford University?s Facebook Profile 


其 中 字符 ?应 该 引起 我 们 的 注意 。 与 之 前 碰 到 的 HTML 编码 字符 一 样 ， 它 很 有 可 能 也 是 在 字 
符 集 转换 时 产生 的 。 这 种 情况 一 般 都 是 因为 原始 推 文中 含有 high-ASCIH 或 Unicode 编 码 的 撤 号 (有 
时 候 也 称 为 智能 引号 ) 但 这 些 数据 在 向 低位 字符 集 转换 的 时 候 ， 比 如 纯 ASCII, 特殊 风格 的 撤 号 
就 会 被 简单 地 转换 成 ?。 


要 不 要 在 数据 中 保留 带 有 ?的 字符 ， 这 完全 取决 于 处 理 数据 的 目的 。 假 如 我 们 要 做 字数 统计 
或 是 文本 挖掘 ， 那 就 必须 把 TI?11 转 换 成 IT'11， 把 university?s 转 换 成 University's。 如 果 
我 们 认为 这 样 做 很 有 必要 的 话 , 那 接 下 来 的 工作 就 是 从 推 文 数 据 中 找 出 问题 数据 , 然后 设计 一 套 
转换 方案 ， 把 问号 重新 转 回 单 引号 。 这 个 操作 需要 一 定 的 技巧 ， 绝 对 不 可 以 简单 地 把 字段 
tweet_text 中 的 每 一 个 问号 直接 替换 成 单 引号 字符 ， 因 为 推 文中 还 有 一 些 问 号 应 该 保持 它们 原 
本 的 样 貌 。 


可 以 通过 运行 一 些 SQL 查 询 语句 并 配合 正则 表达 式 来 确定 有 问题 的 数据 。 有 一 点 需要 注意 的 
是 ,我们 要 查找 的 问号 字符 所 处 的 位 置 比较 特殊 ,它们 的 后 面 往往 会 紧 紧 跟 随 着 另 一 个 字母 。 所 
以 ,在 下 面 的 语句 里 ,我们 需要 使 用 MySQL 的 REGEXP 功 能 。 通 过 这 条 命令 可 以 大 致 找到 存在 问 
题 的 问号 位 置 : 




































































SELECT id, tweet text 
FROM sentiment140 

WHERE tweet text 

REGEXP '\\?[[:alpha:]]+'; 


SQL 中 的 正则 表达 式 会 匹配 后 面 跟随 着 一 个 或 多 个 字母 的 问号 。 查 询 一 共产 生 六 行 结 果 , 其 
中 四 行 包 含有 问题 的 问号 , 而 另外 两 行 则 是 不 当 匹 配 。 不 当 匹 配 的 数据 虽然 满足 匹配 样式 , 但 实 
际 上 是 不 应 该 被 修改 的 ,这 两 处 不 当 匹 配 的 推 文人 DD 分别 是 234 和 2204, 其 中 包含 的 问号 其 实 是 URL 
的 一 部 分 。 而 推 文 139、224、613 和 2086 才 是 正确 匹配 的 数据 ， 这 就 意味 着 其 中 确实 包含 了 异常 
数据 并 且 应 该 纠正 。 下 面 的 phpMyAdmin 截 图 中 显示 的 是 所 有 的 查询 结果 : 
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id tweet_text | 
139 ?Obama Administration Must Stop Bonuses to AIG Ponzi Schemers ... http;//bit.ly/2CUlg | 
224 Life?s a bitch? and so is Dick Cheney. #p2 #bipart #tlot #tcot #hhrs #GOP £DNC http://is.gd/DjyQ 
234 jQuery UI 1.6 Book Review - http://cfbloggers.org/?c-30631 
613 Talk is Cheap: Bing that, I?Il stick with Google. http://bit.ly/XC3C8 

2086 Stanford University?s Facebook Profile is One of the Most Popular Official University Pages - http:;//tinyurl.com/p5b3fl 

2204 Learning jQuery 1.3 Book Review - http://cfbloggers.org/?c-30629 








经 过 仔细 观察 ，ID 为 139 的 推 文 看 起 来 还 是 有 点 古怪 。 它 的 问号 在 单词 Obama 之 前 ， 看 起 来 
像 是 新 闻 文 章 中 对 名 字 的 引用 ， 但 字符 串 末 端 并 没有 结束 用 的 引号 〈 缺少 配对 的 引号 )。 这 有 可 
能 是 别 的 什么 字符 吗 ? 实际 上 这 也 可 能 是 不 当 匹 配 ， 或 者 至 少 不 足 以 成 为 正确 匹配 以 进行 修复 。 
再 进一步 观察 ，224 也 在 本 不 该 出 现 问号 的 地 方 出 现 了 奇怪 的 问号 字符 。 


如 果 我 们 要 使 用 replace O 函数 把 有 问题 的 问号 替换 成 单 引号 ， 就 得 编写 一 个 正则 表达 式 ， 
要 求 是 只 匹配 有 问题 的 数据 , 绝 不 可 以 错误 匹配 到 没有 问题 的 数据 。 但 是 ,由 于 这 个 数据 集 的 规 
模 比较 小 ， 且 只 有 四 处 是 真正 有 问题 的 地 方 ( 如 果 连 139 这 条 记录 也 排除 了 ， 那 就 只 剩 下 三 处 )， 
我 们 完全 可 以 手工 完成 清洗 工作 。 这 种 方式 对 于 处 理 像 224 这 样 的 问题 数据 来 说 ， 真 是 再 也 适合 
不 过 了 。 


既然 我 们 只 剩 下 三 行 要 处 理 的 问题 数据 ， 那 直接 写 出 三 条 UPDATE 命 令 远 比 构建 一 个 完美 的 
正则 表达 式 快 得 多 。 下 面 的 SQL 查询 语句 可 以 用 来 修复 推 文 224( 只 针对 第 一 个 问号 ) 613712086: 
UPDATE sentiment140 SET tweet text = 'Life''s a bitch? and so is 


Dick Cheney. #p2 sbipart #tlot #tcot 4$hhrs #GOP #DNC 
http://is.gd/DjyO' WHERE id = 224; 
















































































UPDATE sentiment140 SET tweet text = 'Talk is Cheap: Bing that, 
I''ll stick with Google. http://bit.ly/XC3C8' WHERE id = 613; 





UPDATE sentiment140 SET tweet text = 'Stanford University''sg 
Facebook Profile is One of the Most Popular Official University 
Pages - http://tinyurl.com/p5b3fl' WHERE id = 2086; 


请 注意 ， 我 们 必须 在 更 新 语句 中 对 单 引 号 进行 转 义 。 在 MySQL 中 ， 转 义 字 
符 要 么 是 反 斜 线 ,要 么 是 单 引号 本 身 。 上 面 的 例子 就 是 使 用 单 引 号 作为 转 义 字符 。 


7.7 第 六 步 : 清洗 日 期 


如 果 我 们 仔细 查看 字段 aate_of_tweet 中 的 内 容 ， 很 容易 就 能 发 现 它 是 一 个 变 长 字符 类 型 
的 varchar (30) 字 段 。 这 有 什么 问题 吗 ? 假设 我 们 想 按 时 间 从 早 到 晚 的 顺序 对 推 文 数据 进行 排 
序 。 我 们 不 可 能 只 通过 简单 的 ORDER BY 子 句 得 到 正确 的 日 期 排序 ， 因 为 我 们 只 能 得 到 以 字母 顺 
序 排序 的 数据 。 所 有 的 Friday 都 会 排 在 Monday 的 前 面 ， 所 有 的 May 都 会 排 在 June 后 面 。 我 们 可 以 
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利用 下 面 的 SQL 查 询 来 验证 这 一 说 法 : 


SELECT id, date of tweet 
FROM sentiment140 
ORDER BY date of tweet; 


前 几 行 顺序 还 是 对 的 ， 但 到 了 28 行 左右 问题 就 出 现 了 : 


2018 Fri May 15 06:45:54 UTC 2009 
2544 Mon Jun 08 00:01:27 UTC 2009 























3 Mon May 11 03:17:40 UTC 2009 


May 11 不 应 该 排 在 May 15 或 是 Jun 8 的 后 面 。 要 修复 这 个 问题 ， 我 们 需要 再 创建 一 个 新 的 
日 期 时 间 字 段 来 存放 清洗 后 的 字符 串 数 据 。 我 们 在 2.3.2 节 中 学 过 ，MySQL 可 以 很 好 地 处 理 date、 
time 或 是 datetime 数 据 。 日 期 时 间 组 合 类 型 的 数据 格式 可 以 是 : YYYY-MM-DD HH:MM:SS。 但 在 目 
前 的 aate_of_tweet 字 段 中 ， 数 据 并 不 是 这 样 。 


MySQL 提 供 了 大 量 的 内 置 函 数 ， 可 以 帮助 我 们 把 格式 混乱 的 日 期 字符 串 格式 化 成 我 们 希望 
的 样子 。 通 过 这 种 方式 ， 我 们 可 以 在 MySQL 里 对 日 期 和 时 间 数 据 执 行 一 些 数学 操作 ， 比 如 找 出 
两 个 日 期 或 时 间 的 间隔 ， 或 者 是 按照 对 应 的 日 期 和 时 间 来 进行 排序 。 


为 了 把 字符 串 转换 成 MySQL 可 以 接受 的 日 期 时 间 类 型 ， 需 要 执行 以 下 操作 。 


(1) 修改 原来 的 数据 表 并 加 入 一 个 新 的 字段 ， 这 样 做 的 目的 是 为 了 存放 新 生成 的 日 期 时 间 信 
息 。 我 们 可 以 把 这 个 新 字段 命名 为 date_of_tweet_new 或 date_clean, 或 者 是 其 他 与 原来 的 
date of tweet 字 段 明 显 不 同 的 新 名 字 。 下 面 是 完成 这 项 任务 需要 用 到 的 SQL 语句 : 

ALTER TABLE sentiment140 


ADD date clean DATETIME NULL 
AFTER date of tweet; 


(2) 针对 每 一 行 数据 执行 更 新 语句 ， 在 这 个 操作 中 我 们 会 把 旧 的 日 期 字符 串 格 式 化 成 格式 更 
加 规范 的 日 期 时 间 类 型 ， 并 把 新 得 到 的 数据 放 到 刚刚 创建 的 daate_clean 字 段 中 。 下 面 是 完成 这 
项 任务 需要 用 到 的 SQL 语句 : 

UPDATE sentiment140 

SET date clean - str to date(date of tweet, 

'$a Sb $d $H:$i:$s UTC $Y'); 

此 时 我 们 已 经 拥有 一 个 存 满 干 净 数 据 的 新 字段 了 。 之 前 的 旧 字 段 aate_of_tweet 无 法 正确 
地 排列 日 期 。 那 新 字段 是 不 是 能 够 派 上 用 场 呢 ? 我 们 可 以 用 下 面 的 语句 来 测试 一 下 : 

SELECT id, date of tweet 


FROM sentiment140 
ORDER BY date clean; 
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从 结果 中 我 们 可 以 看 出 排序 效果 十 分 理想 ，5 月 11 号 的 记录 排 在 第 一 行 ， 且 不 存在 顺序 不 对 
的 数据 。 


那 我 们 是 不 是 该 把 旧 的 日 期 字段 删除 了 呢 ? 这 个 问题 还 是 由 你 自己 来 决定 吧 。 如 果 你 担心 会 
有 什么 差错 ,或 者 是 出 于 某 些 特殊 的 原因 还 需要 这 些 原 始 数据 , 那 就 把 它们 保留 下 来 。 但 是 如 果 
你 不 想 保留 这 些 旧 数据 了 ， 那 就 可 以 删除 这 个 字段 : 


ALTER TABLE sentiment140 
DROP date of tweet; 


另外 ， 你 还 可 以 选择 为 数据 表 Sentiment140 创 建 一 个 副本 ， 然 后 在 副本 中 保留 原始 字段 作为 
备份 使 用 。 
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这 份 数 据 中 现在 还 有 一 个 问题 ， 就 是 有 许多 信息 潜藏 在 字段 Ltweet_text 中 ， 比 方 说 一 个 用 
户 发 布 的 推 文 想 要 引起 另 一 个 用 户 的 注意 ， 就 会 在 后 者 的 用 户 名 前 面 加 上 一 个 e 符 号 。 这 就 是 
Twitter 上 的 提 及 〈mention )。 或 许 我 们 可 以 统计 一 下 每 个 用 户 被 提 及 的 次 数 ， 或 者 是 计算 出 他 们 
与 某 个 关键 词 同时 出 现 的 次 数 。 另 外 还 有 一 部 分 标签 (hashtag ) 信息 隐藏 在 推 文中 ， 比 如 在 ID 
为 2165 的 推 文 中 ， 人 们 用 分 别 使 用 标签 #jobs 和 #sittercity 来 讨论 工作 和 保姆 的 事情 。 


这 条 推 文中 同时 还 包含 了 一 个 Twitter 以 外 的 URL 信 息 。 接 下 来 我 们 要 做 的 就 是 分 别提 取 用 户 
提 及 、 标 签 和 URL 信 息 ， 人 然后 把 它们 保存 到 数据 库 中 。 


这 项 任务 与 我 们 之 前 的 日 期 清洗 任务 比较 相似 ， 但 是 有 一 个 重要 的 区 别 。 在 日 期 的 案例 中 ， 
我 们 只 有 一 个 需要 纠正 的 数据 , 所 以 只 要 添加 一 个 新 的 字段 存放 清洗 后 的 数据 即 可 。 但 是 对 于 用 
户 提 及 、 标 签 和 URL 来 说 ， 字 段 tweet_text 中 可 能 会 同时 包含 零 个 或 多 个 这 样 的 数据 ， 比 如 我 
们 前 面 所 说 的 推 文 (ID 为 2165 ), 它 就 包含 了 两 个 标签 , 与 此 相似 的 还 有 下 面 的 推 文 (ID 为 2223 ): 










































































HTML 5 Demos! Lots of great stuff to come! Yes, I'm excited. :) 
http://htmlfive.appspot.com #io2009 #googleio 


在 这 条 推 文中 , 没有 包含 用 户 提 及 信息 , 但 是 包含 了 一 个 URL 和 两 个 标签 信息 。 而 推 文 13078 
中 则 有 三 个 用 户 提 及 ， 但 它 并 不 包含 标签 和 URL : 








Monday already. Iran may implode. Kitchen is a disaster. @annagoss 
seems happy. Gsebulous had a nice weekend and Ggoldpanda is 
great. whoop. 


我 们 需要 修改 数据 库 的 结构 来 存放 这 些 新 的 信息 
， 被 处 理 的 推 文 可 能 会 包含 许多 这 样 的 数据 。 


标签 、URL 和 用 户 提 及 。 另 外 要 记 住 的 





pn 
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7.8.1 创建 一 些 新 的 数据 表 


如 果 遵 循 关 系 型 数据 库 的 设计 理念 ， 我 们 应 该 避免 创建 用 于 存放 多 个 属性 值 的 字段 。 例 如 ， 
如 果 一 条 推 文 中 含有 三 个 标签 的 话 , 不 要 把 它们 都 放 到 一 个 字段 中 。 这 种 设计 原则 使 得 我 们 无 法 
简单 地 照搬 之 前 在 日 期 清洗 中 用 过 的 ALTER 方 案 。 


取而代之 的 方案 是 创建 三 张 全 新 的 数据 表 : sentiment140 mentions, sentiment140 
urls 和 sentiment140_hashtags。 每 张 新 表 都 有 一 个 主键 ID 字段 ， 除 此 之 外 只 包含 两 个 字段 : 
第 一 个 是 tweet_igq， 用 来 建立 新 表 与 原始 表 sent iment140 之 间 的 关系 ， 另 一 个 则 是 抽取 出 来 
的 标签 、 用 户 提 及 或 URL 信 息 。 下 面 是 三 个 用 于 创建 表 的 CREATE 语 句 : 


















































CREATE TABLE IF NOT EXISTS sentiment140 mentions ( 
id int(11) NOT NULL AUTO INCREMENT, 
tweet id int(11) NOT NULL, 
mention varchar(144) NOT NULL, 
PRIMARY KEY (id) 
) ENGINE-MyISAM DEFAULT CHARSET-utf8; 


CREATE TABLE IF NOT EXISTS sentiment140 hashtags ( 
id int(11) NOT NULL AUTO INCREMENT, 
tweet id int(11) NOT NULL, 
hashtag varchar(144) NOT NULL, 
PRIMARY KEY (id) 
) ENGINE-MyISAM DEFAULT CHARSET-utf8; 


CREATE TABLE IF NOT EXISTS sentiment140 urls ( 
id int(11) NOT NULL AUTO INCREMENT, 

tweet id int(11) NOT NULL, 

url varchar(144) NOT NULL, 

PRIMARY KEY (id) 

ENGINE-MyISAM DEFAULT CHARSET-utf8; 


] 这 些 表 没 有 使 用 外 键 来 引用 存放 在 原始 表 sentiment140 中 的 数据 。 如 果 你 
起 添加 外 键 约 来， 当然 也 是 可 以 的 。 但 对 于 数据 集 清洗 练习 来 说 ， 真 的 没有 这 个 
必要 。 


既然 数据 表 已 经 创建 好 了 ， 接 下 来 就 该 从 tweet_text 字 段 提 取 数 据 完成 相应 的 数据 填充 工 
作 了 。 我 们 会 分 别 讲述 每 一 种 数据 抽取 过 程 ， 先 从 用 户 提 及 开始 。 





7.8.2 ”提取 用 户 提 及 
在 设计 用 户 提 及 的 提取 逻辑 之 前 ， 先 让 我 们 回顾 一 下 推 文中 用 户 提 及 的 样式 : 


OQ 用 户 提 及 必须 以 @ 符 号 开头 
a 用 户 提 及 是 基 随 @ 符 号 之 后 的 那个 单词 
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口 如 果 @ 符 号 后 面 有 空格 ， 那 它 就 不 是 用 户 提 及 
口 用 户 提 及 内 部 是 不 允许 出 现 空格 的 
a 我 们 得 小 心 电 子 邮 件 地 址 中 的 @ 符 号 


根据 上 面 的 样式 规则 ， 我 们 可 以 先 构造 一 些 有 效 的 用 户 提 及 样式 : 








0 @foo 
0 @foobarl 
u @ lfoobar 


接 下 来 还 可 以 构建 一 些 无 效 的 用 户 提 及 例子 : 


口 @foo (@ 符 号 后 面 的 空格 会 导致 用 户 提 及 样式 匹配 无 效 ) 
O foo@bar.com (bar.com 是 无 法 识别 的 ) 

口 @foo bar ( 只 有 @foo 才 会 被 识别 出 来 ) 

口 @foo.bar ( 只 有 @foo 才 会 被 识别 出 来 ) 











. 在 这 个 例子 中 ， 我 们 假定 不 需要 区 分 emention 和 .emention 这 两 种 形式 ， 
后 者 有 时 也 称 为 点 提 及 ( 推 特 的 一 种 语法 ) 这 些 推 文 都 是 在 @ 符 号 前 面 放置 一 
个 句点 。 这 种 语法 的 目的 是 把 推 文 消息 内 容 发 送 给 当前 用 户 的 所 有 关注 者 。 


要 是 完全 采用 SQL 实 现 这 组 规则 , 实现 起 来 一 定 非 常 复杂 , 所 以 还 是 先 写 一 小 段 简单 的 脚本 ， 
并 配合 一 些 正则 表达 式 来 完成 清洗 工作 吧 。 连 接 数 据 库 的 脚本 不 论 用 什么 语言 编写 都 是 可 以 的 ， 
Python 或 PHP 等 随 你 选择 。 因 为 我 们 在 第 2 章 中 用 过 PHP 连 接 数 据 库 , 所 以 这 里 还 使 用 它 。 下 面 这 
段 脚 本 会 先 连 接 到 数据 库 ， 然 后 在 kweet_text 字 段 中 搜索 用 户 提 及 ， 随 后 将 找到 的 用 户 提 及 放 
到 新 的 sentiment140_mentions 表 中 : 






































«?php 
// 连接 数据 库 
$dbc = mysqdli connect('localhost', 'username', 'password', 
'sentiment140') 
or die('Error connecting to database!' . mysqli error()); 


$dbc-»set charset("utf8"); 


// 提取 推 文 数据 
$select query = "SELECT id, tweet text FROM sentiment140"; 
$select result = mysqli query ($dbc, $select query); 


// 如 果 查 询 失 败 则 终止 处 理 
if (!$select result) 
die ("SELECT failed! [$select query]" . mysqgli error()); 


// 提取 用 户 提 及 信息 


$mentions = array(); 
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while($row = mysqli fetch array ($select result)) 
{ 
if (preg match all( 
"/ (?«! NpL) €(NpL«) /iu", 
$row["tweet text"], 
$mentions 
) ) 
foreach ($mentions[0] as $name) 
{ 
Sinsert_query = "INSERT into sentiment140 mentions (id, 
tweet id, mention) VALUES (NULL," . $row["id"] . ",'$name')"; 
echo "<br /»$insert query"; 
$insert result = mysqdli query($dbc, $insert query); 
// 如 果 查 询 失 败 则 终止 处 理 
if (!$insert_result) 
die ("INSERT failed! [$insert query]" . 
mysqli error()); 


} 


?» 


运行 完 脚 本 之 后 ,我 们 会 发 现在 sent iment140 表 所 包含 的 489 条 推 文中 , 一 共有 124 个 非 重 
复 的 用 户 提 及 。 另 外 还 有 一 点 要 指出 的 是 ， 这 有 段 脚本 能 够 很 好 地 处 理 用 户 名 中 的 Unicode 字 符 ， 
不 过 在 这 个 测试 数据 集中 并 没有 这 样 的 数据 。 我 们 可 以 马上 向 数据 表 sentiment140 末 尾 插入 一 
条 测试 数据 来 验证 我 们 的 说 法 : 

INSERT INTO sentiment140 (id, tweet text) VALUES(99999, "This is a @ tect"); 

现在 让 我 们 重新 运行 一 次 脚本 。 你 会 立马 看 到 数据 表 sent iment140_mentions 中 加 入 了 一 
条 新 数据 ， 其 中 用 户 提 及 是 采用 Unicode 编 码 的 emecm。 在 下 一 节 中 ， 我 们 将 构建 一 个 类 似 的 脚 
本 来 提取 标签 信息 。 



































7.8.3 ”提取 标签 


标签 也 有 自己 的 定义 规则 ， 而 且 与 用 户 提 及 有 一些 区 别 。 下 面 列 举 了 部 分 规则 ,我 们 可 以 根 
据 它们 来 判断 所 给 的 数据 是 不 是 标签 。 


Q 标签 以 符号 # 开 始 。 
O 标签 单词 会 紧 紧 跟 随 符号 #。 
a 标签 中 可 以 包含 下 划 线 ， 但 不 可 以 包含 空格 或 其 他 标点 符号 。 

这 段 提取 标签 的 PHP 代 码 几 乎 和 我 们 前 面 写 的 用 户 提 及 提取 程序 完全 一 样 ， 只 是 代码 中 间 的 
正则 表达 式 有 所 不 同 。 我 们 需要 把 变量 从 smentions 改 成 Snastags， 然 后 再 把 正则 表达 式 调整 
成 下 面 的 样式 : 
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if (preg match all( 
"/ (SNpL«)/iu", 
$row["tweet text"], 
Shashtags 
) ) 


这 段 正则 表达 式 的 含义 是 ， 在 不 区 分 大 小 写 的 情况 下 匹配 Unicode 字 符 。 之 后 我 们 需要 修改 
INSERT 语 句 ， 使 用 正确 的 数据 表 名 字 和 字段 名 字 : 


Sinsert_query = "INSERT INTO sentiment140 hashtags (id, tweet id, 
hashtag) VALUES (NULL," . $row["id"] . ",'$name')"; 


在 成 功 运行 这 段 脚 本 之 后 ， 我 们 会 看 到 一 共有 54 个 标签 记录 加 入 到 数据 表 sentiment140_ 
hashtags 中 。 其 中 多 条 推 文 包含 多 个 标签 ， 甚 至 比 包 含 多 个 用 户 提 及 的 推 文 还 要 多 。 我 们 以 推 
文 174 和 224 为 例 ， 这 两 条 记录 都 包含 了 多 个 槐 套 标 签 。 


接 下 来 我 们 还 是 使 用 同样 的 脚本 框架 ， 稍 作 修改 之 后 就 可 以 用 来 提取 URL 信 息 了 。 




















7.8.4 提取 URL 


从 文本 中 提取 URL 信 息 可 以 像 查 找 以 http:/ 或 https:/ 开 头 的 字符 串 那 样 简单 。 当 然 , 这 个 过 程 
也 可 能 会 因 文本 字符 串 包 含 的 URL 类 型 不 同 而 变 得 复杂 。 举 个 例子 来 说 ， 有 些 字 符 串 可 能 包含 
file:/ 这 样 的 URL， 也 可 能 包含 torrent 链 接 ， 比 如 磁力 链接 ， 或 者 是 别 的 不 太 常 见 的 链接 。 但 就 我 
们 这 个 项 目的 Twitter 数 据 来 讲 ， 分 析 起 来 还 是 比较 容易 的 ， 因 为 数据 集中 的 URL 全 都 以 HTTP 开 
头 。 所 以 , 我 们 可 以 稍微 偷 一 下 懒 , 只 需 简 单 设计 一 个 正则 表达 式 ， 专门 用 来 提取 http:// 或 https:// 
后 面 的 字符 串 就 足够 了 。 正 则 表达 式 的 样式 如 下 : 

if (preg match all( 

"Ihttps?://NS«1", 


$row["tweet text"], 
$urls 









































) ) 
然而 ， 如 果 我 们 试 着 用 一 下 搜索 引擎 ， 很 容易 发 现 一 些 让 人 感到 惊讶 的 通用 URL 匹 配 样式 ， 
利用 它们 可 以 搞定 更 多 的 复杂 链接 样式 。 使 用 这 些 样 式 的 意义 在 于 , 即使 在 未 来 的 某 一 天 数据 发 
生 了 变化 ,我 们 还 是 可 以 使 用 同样 的 程序 来 处 理 这 些 新 的 复杂 状况 。 
从 网 站 http:/daringfireballLnet2010/07/improved regex for matching urls 上 可 以 找到 一 份 文 档 
齐全 的 URL 样 式 匹配 程序 。 下 面 的 代码 演示 了 该 如 何 修改 PHP 代 码 来 利用 这 个 样式 提取 数据 集 
Sentiment140 中 的 URL: 




















<?php 

// 连接 数据 库 

$dbc = mysqdli connect('localhost', 'username', 'password', 'sentiment140"') 
or die('Error connecting to database!' . mysqli error()); 


$dbc-»set charset("utf8"); 
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// 提取 推 文 数据 
$select query = "SELECT id, tweet text FROM sentiment140"; 
$select result = mysgli query($dbc, $select query); 


// 如 果 查 询 失 败 则 终止 处 理 
if (!$select result) 


die ("SELECT failed! [$select query]" . mysqgli error()); 
// 提取 URL 
$urls = array(); 
$pattern = '#\b(([\w-]+://?lwww[.]) [^Ns «1 (2: NCENwNd] &N) EL CE^ E: punct:]Ns]1/))) 8'; 


while($row = mysqli fetch array ($select result)) 


( 





echo "«br/»working on tweet id: " . $row["id"]; 
if (preg match all( 

$pattern, 

$row["tweet text"], 

$urls 


) ) 
{ 
foreach (Surls[0] as $name) 


{ 


echo "<br/>----url: ".$name; 
$insert query = "INSERT into sentiment140 urls (id, 
tweet id, url) 

VALUES (NULL," . $row["id"] . ",'$name')"; 


echo "«br /»$insert query"; 
$insert result = mysqdli query($dbc, $insert query); 
// 如 果 查 询 失 败 则 终止 处 理 
if (!$insert_result) 
die ("INSERT failed! [$insert query]" . 
mysqgli error()); 


} 


?» 


这 个 程序 几乎 和 我 们 前 面 写 的 用 户 提 及 提取 程序 完全 一 样 ， 只 是 有 两 处 例外 。 第 一 处 是 存放 
正则 表达 式 的 Spattern 变 量 , 现在 这 个 样式 又 长 又 复杂 。 第 二 处 是 我 们 对 INSERT 命 令 做 了 少量 
修改 ， 做 法 同 标签 抽取 部 分 的 代码 一 样 。 


这 里 所 使 用 的 正则 表达 式样 式 的 完整 解释 可 以 从 它 的 原始 网 站 上 找到 , 但 简单 一 点 讲 , 就 是 
可 以 利用 这 个 样式 来 匹配 任何 URL 协 议 ， 比 如 http:/ 或 外 e:/， 同 时 它 还 会 匹配 有 效 的 域名 和 带 有 
层级 的 目录 关系 (目录 /文件 ) 从 原始 网 站 中 我 们 还 可 以 找到 更 多 的 样式 和 它们 对 应 的 测试 数据 ， 
有 的 演示 的 是 可 以 明确 匹配 的 样式 ， 而 有 的 却 是 相反 的 示例 。 





















































7.9 第 八 步 : 清洗 查询 表 
在 7.8 节 中 ， 我 们 创建 了 儿 个 新 表 来 存放 抽取 出 来 的 标签 、 用 户 提 及 和 URL 信 息 ， 并 可 以 通 
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过 其 中 的 ia 字段 找到 原始 表 中 对 应 的 数据 。 根据 数据 库 标准 化 原则 , 这 些 新 表 分 别 在 推 文 数据 与 
用 户 提 及 、 推 文 数据 与 标签 、 推 文 数据 与 URL 之 间 ， 创 建 了 一 系列 一 对 多 的 关系 。 在 这 一 步 ,我 
们 将 继续 对 数据 表 进 行 优 化 ， 提 升 它 们 的 性 能 与 效率 。 


我 们 现在 重点 关注 的 字段 是 query_phrase。 从 这 个 字段 中 的 内 容 可 以 看 出 , 很 多 数据 都 是 
重复 的 。 这 些 数据 明显 是 当初 用 来 定位 与 筛选 数据 集中 推 文 信息 的 搜索 短语 。 在 sentiment140 
表 里 存放 的 498 条 推 文中 , 有 多 少 这 样 重复 的 查询 短语 呢 ? 我 们 可 以 使 用 下 面 的 SQL 来 检查 一 下 : 


SELECT count (DISTINCT query phrase) 
FROM sentiment140; 


查询 结果 显示 不 重复 的 查询 短语 只 有 80 条 ， 但 实际 上 它们 被 反复 用 在 了 498 条 记录 上 。 


对 于 一 个 只 有 498 条 记录 的 表 来 说 ， 这 好 像 也 没什么 ， 但 如 果 我 们 现在 面 对 的 是 一 张 数据 量 
超大 的 表 ， 比 如 有 上 亿 条 数据 ， 有 两 件 事 就 不 得 不 考虑 了 。 第 一 件 就 是 反复 重复 的 字符 串 占用 了 
本 无 需 使 用 的 数据 库 空 间 ， 第 二 件 就 是 数据 检索 起 来 会 很 慢 。 


要 解决 这 个 问题 ， 需 要 创建 一 张 查询 表 来 另外 保存 这 些 查 询 数据 。 在 新 表 中 ,每 个 查询 短语 
只 允许 出 现 一 次 , 并且 还 要 为 它们 创建 ID 编码 。 之 后 要 做 的 是 修改 原始 表 中 的 数据 , 用 新 的 数字 
编码 来 替代 现在 使 用 的 字符 串 值 。 完 整 的 操作 过 程 如 下 。 


(1) 创建 一 个 新 的 查找 表 : 


CREATE TABLE sentiment140 queries ( 
query id int(11) NOT NULL AUTO INCREMENT, 
query phrase varchar(25) NOT NULL, 
PRIMARY KEY (query id) 
) ENGINE-MyISAM DEFAULT CHARSET-utf8 AUTO INCREMENT-1; 


(2) 用 不 重复 的 查询 短语 填充 查找 表 ， 并 自动 为 字段 auery_idq 生 成 一 个 编号 : 


INSERT INTO sentiment140 queries (query phrase) 
SELECT DISTINCT query phrase FROM sentiment140; 


(3) 在 原来 的 表 中 创建 一 个 新 的 字段 来 存放 查询 短语 编号 : 


ALTER TABLE sentiment140 
ADD query id INT NOT NULL AFTER query. phrase; 


(4) 为 了 防止 下 一 步 有 什么 意外 发 生 ， 先 对 表 sentiment140 进 行 备份 。 无 论 什 么 时 候 执 行 
UPDATE 操 作 ， 备 份 总 是 好 的 。 要 想 创 建 表 sentiment140 的 副本 , 可 以 使 用 pppMyAdmin 这 样 的 
工具 轻松 地 完成 表 复 制 的 工作 (该 功能 位 于 Operations 页 签 中 )。 另外 还 有 一 种 方法 就 是 重新 创建 
一 个 新 表 ， 然 后 从 原始 表 导 和 数据， 具体 的 SQL 如 下 : 

CREATE TABLE sentiment140_backup ( 

polarity int(1) DEFAULT NULL, 


id int(5)NOT NULL, 
date of tweet varchar(30) CHARACTER SET utf8 DEFAULT NULL 
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date clean datetime DEFAULT NULL COMMENT 'holds clean, 
formatted date of tweet', 

query id int(11) NOT ULL, 

user varchar(25) CHARACTER SET utf8 DEFAULT NULL, 

tweet text varchar(144) CHARACTER SET utf8 DEFAULT NULL , 
PRIMARY KEY (id)) ENGINE=MyISAM DEFAULT CHARSET-utf8; 





SET SOL MODE-'NO AUTO VALUE ON ZERO'; 
INSERT INTO sentiment140 backup SELECT * FROM sentiment140; 


(5) 为 新 字段 填写 正确 的 编号 。 为 此 ， 需 要 以 文本 字段 为 连接 条 件 把 这 两 张 表 关 联 起 来 ， 然 
后 再 从 查询 表 中 找 出 正确 的 编码 值 , 把 找到 的 编码 插入 到 表 sent iment140 中 ,在 下 面 的 查询 中 ， 
每 个 表 都 有 对 应 的 别名 ,分 别 是 s 和 sa: 

UPDATE sentiment140 s 

INNER JOIN sentiment140 queries sq 


ON s.query phrase - sq.query phrase 
SET s.query id = sq.query. id; 

















(6) 从 表 sent iment140 中 删除 旧 的 query_phrase 字 上 段 : 


ALTER TABLE sentiment140 
DROP query_phrase; 


至 此 , 我 们 已 经 可 以 利用 创建 好 的 短语 列表 来 高 效 地 实现 排序 操作 了 。 下 面 就 是 以 字母 顺序 
排序 的 查询 语句 : 


SELECT query_phrase 
FROM sentiment140_queries 
ORDER BY 1; 


另外 ， 还 可 以 通过 把 两 张 表 关 联 起 来 找 出 指定 短语 (baseball) 所 对 应 的 推 文 信息 : 



































SELECT s.id, s.tweet text, sq.query phrase 
FROM sentiment140 s 
INNER JOIN sentiment140 queries sq 
ON s.query id - sq.query id 
WHERE sq.query phrase - 'baseball'; 


到 这 里 ,我 们 已 经 完成 对 表 sent iment140 的 清洗 工作 ,并 且 还 拥有 了 四 张 含 有 干净 数据 的 
de. 分 别 是 标签 、 用 户 提 及 、URL 和 查询 短语 。 字 上 段 Lweet_text 和 date_clean 也 已 经 清洗 干 
净 ， 并 且 查 询 短 语 也 都 重新 规划 到 查询 表 。 


























7.40 第 九 步 : 记录 操作 步骤 


在 九 步 清洗 过 程 中 , 我 们 使 用 了 多 种 编程 语言 和 工具 ， 只 要 其 中 某 一 步 稍 有 差 池 ， 就 得 把 这 
一 步 的 操作 全 部 重新 再 来 一 次 。 如 果 我 们 必须 跟 其 他 人 解释 曾经 做 过 些 什 么 , 也 很 难 回想 起 每 一 
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个 操作 细节 与 动机 。 


要 想 记 录 下 我 们 一 路 犯 下 的 错误 , 保存 一 份 关于 清洗 步骤 的 详细 日 志 是 非常 必要 的 。 而 且 这 
个 日 志 至 少 也 应 该 以 清洗 步骤 为 顺序 ， 记 录 下 每 一 个 操作 中 所 涉及 的 以 下 几 个 方面 内 容 。 


OQ 每 条 SQL 语句 。 

O 每 个 Excel 函 数 和 文本 编辑 器 程序 ， 如 果 有 必要 可 以 加 入 演示 截图 。 
口 每 个 脚本 程序 。 

a 关于 历史 操作 的 笔记 和 注释 。 


还 有 一 种 比较 好 的 思路 就 是 在 每 个 阶段 都 创建 一 个 备份 表 ， 例 如， 我 们 在 对 数据 表 
sentiment140 执 行 UPDATE 操 作 之 前 就 创建 了 一 张 备份 表 , 在 创建 新 字段 aate_clean 之 后 也 做 
了 备份 。 备 份 实现 起 来 比较 容易 ， 而 且 不 论 什么 时 候 ， 只 要 不 需要 了 就 可 以 马上 删除 。 





















































7.11 小结 


在 这 一 章 里 ， 我 们 通过 一 份 名 为 Sentiment140 的 简单 推 文 数 据 集 ， 学 习 了 如 何 清洗 和 操作 保 
存在 关系 型 数据 库 管理 系统 中 的 数据 。 前 期 的 一 些 基 本 清洗 工作 都 是 在 Excel 中 完成 的 ， 然 后 数 
据 从 CSV 文 件 被 转移 到 了 数据 库 。 之 后 的 清洗 操作 就 全 部 集中 在 RDBMS 内 部 了 。 之 后 ， 学 习 了 
如 何 把 字符 串 转 换 成 日 期 格式 ,又 演练 了 从 推 文中 提取 三 种 数据 的 过 程 ,最 后 把 提取 出 来 的 干净 
数据 放 到 新 的 数据 表 。 此 后 我 们 又 学 习 了 如 何 创建 查 询 表 来 存放 那些 低 效 存储 的 数据 , 并 通过 数 
字 来 提高 更 新 效率 、 优 化 查询 速度 。 但 是 ， 由 于 我 们 执行 了 许多 步 又 ,里面 有 可 能 存在 潜在 的 错 
误 或 是 理解 有 误 的 地 方 , 所 以 , 在 最 后 一 个 步骤 中 , 我 们 总 结 了 一 些 与 数据 清洗 相关 的 文档 编写 
策略 。 


在 下 一 章 中 , 我 们 将 把 视角 从 数据 清洗 转移 到 数据 分 享 。 我 们 将 学 习 一 些 创建 数据 集 的 最 佳 
实践 ， 与 他 人 分 享 几乎 无 需 进行 清洗 就 能 直接 使 用 的 数据 。 



















































































数据 分 圣 的 最 佳 实践 








到 目前 为 止 , 我 们 已 经 学 会 了 许多 清洗 与 组 织 数据 集 的 方法 。 也许 是 时 候 考虑 把 干净 的 数据 
拿 出 来 与 大 家 分 享 了 。 所 以 , 这 一 章 的 目标 就 是 把 朋友 们 邀请 到 数据 科学 的 厨房 里 ,向 他 们 展示 
我 们 的 成 果 。 数 据 共享 意味 着 要 把 数据 提供 给 其 他 人 、 其 他 团队 , 或 者 只 是 未 来 的 你 。 那 应 该 用 
什么 方式 来 对 数据 进行 包装 ?应 该 以 什么 方式 来 告知 人 们 你 有 哪些 清洗 过 的 数据 ?如 何 确保 你 
的 辛勤 劳动 成 果 都 归功 于 你 自己 ? 


在 这 一 章 里 我 们 将 学 习 : 


口 如 何 呈 现 并 打包 你 清洗 好 的 数据 

a 如 何 为 数据 提供 一 份 清晰 明了 的 文档 

口 如 何 通过 许可 协议 来 保护 并 扩展 你 的 工作 成 果 
口 如 何 查找 并 评 佑 数据 推广 的 方法 


在 正式 开始 这 一 章 的 内 容 之 前 , 有 一 件 事 应 该 事先 说 清楚 , 我 们 只 应 清洗 与 分 享 我 们 有 权 处 
置 的 数据 。 这 也 许 本 来 就 是 不 言 自 明 的 事情 ,但 提醒 一 下 还 是 有 必要 的 。 在 本 章 中 , 我 们 假定 你 
要 清洗 的 数据 以 及 后 续 要 分 享 的 数据 ， 都 是 你 有 权 人 处 理 的 。 如 果 你 对 此 有 疑问 ， 请 阅读 8.3 节 ， 
以 确保 你 和 你 的 用 户 都 能 严格 遵守 相关 的 守则 。 












































8.1 准备 干净 的 数据 包 

在 这 一 他 中 ， 我 们 会 探讨 在 发 布 数据 包 之 前 需要 回答 的 几 个 重要 问题 。 

你 想 让 人 们 通过 什么 样 的 途径 来 访问 你 的 数据 呢 ? 如 果 是 在 一 个 数据 库 环境 , 你 想 让 用 户 登 
录 到 数据 库 并 运行 SQL 命令 访问 这 些 数据 吗 ?” 还 是 说 你 觉得 创建 一 份 可 以 下 载 的 普通 文本 文件 
更 方便 一 些 ? 再 或 者 是 创建 一 个 数据 访问 用 的 API? 你 的 数据 量 到 底 有 多 大 ? 是 否 需 要 对 不 同 的 
数据 采用 不 同 的 访问 级 别 呢 ? 

从 技术 层面 看 , 数据 的 分 享 方式 是 很 重要 的 。 一 般 来 讲 , 我们 应 该 先 从 简单 的 方案 入 手 , 然 
后 在 必要 的 时 候 根据 具体 需求 做 出 更 为 精细 的 发 布 计划 。 下 面 是 一 些 有 关 数 据 发 布 的 可 选 方 案 ， 
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其 顺序 是 按照 复杂 程度 进行 组 织 的 。 当 然 ， 计 划 做 得 越 完备 周详 ， 收 益 效 果 就 会 越 明 显 。 


口 


口 


口 











压缩 的 纯 文 本 数据 一 一 这 可 以 说 是 一 种 风险 极 低 的 发 布 方法 。 我 们 在 第 2 章 中 曾 学 过 ， 纯 
文本 格式 的 文件 可 以 被 压缩 成 体积 很 小 的 文件 。 用 途 广泛 的 CSV 或 JSON 就 属于 这 样 的 文 
本 格式 ， 而 且 它们 很 容易 被 转换 成 其 他 格式 。 但 在 具体 操作 中 还 需 考 虑 以 下 几 点 内 容 。 


m 你 想 让 用 户 通 过 什么 样 的 方式 下 载 文件 呢 ? 直接 通过 网 页 上 的 链接 下 载 既 简单 又 方 
便 ， 但 可 惜 的 是 它 不 能 对 文件 访问 进行 授权 控制 ， 无 法 只 允许 提供 了 正确 的 用 户 名 和 
密码 的 用 户 访问 文件 。 如 果 这 项 功能 对 你 来 说 比较 重要 的 话 ， 那 么 你 可 以 考虑 改换 男 
一 种 文件 发 布 方法 了 ,比如 使 用 需要 提供 用 户 名 和 密码 才能 访问 的 FTP 服 务 顺 , 或 者 是 
在 网 络 服务 带 加 上 访问 控制 。 

量 还 有 ， 你 的 文件 会 有 多 大 呢 ? 期 望 的 访问 流量 又 是 多 少 ? 在 不 额外 支付 费用 的 前 提 下 ， 
你 的 主机 提供 商 能 为 你 提供 多 少 流量 ? 


压缩 的 SQL 文 件 一 一 发 布 SQL 文 件 可 以 让 你 的 用 户 在 他 们 自己 的 系统 上 重新 创建 数据 库 
结构 和 数据 。 但 在 具体 操作 中 还 需 考虑 以 下 儿 点 内 容 。 


m 用 户 运 行 的 数据 库 系 统 可 能 和 你 的 不 太一 样 ， 所 以 他 们 还 得 额外 做 数据 清洗 。 如 果 事 
实 真是 这 样 的 话 ， 提 供 纯 文本 文件 的 效率 可 能 会 更 高 一 些 。 

加 你 的 数据 库 系 统 设置 可 能 与 用 户 的 不 同 。 如 果 是 这 样 的 话 ， 你 就 必须 事先 对 这 些 自 定 
义 项 目 进行 解释 说 明 。 

加 你 需要 提早 为 数据 集 的 未 来 变化 做 好 应 对 计划 ， 比 如 是 否 只 提供 UPDATE 语 句 更 新 数据 
变化 ， 或 者 是 提供 足够 多 的 cREATE 和 INSERT 语 句 重 新 创建 整个 数据 库 。 


在 线 数据 库 访 问 一 一 直接 为 用 户 提 供 数 据 库 访问 是 一 种 可 以 让 用 户 访问 底层 数据 的 好 办 
法 。 但 在 具体 操作 中 还 需 考 虑 以 下 几 点 内 容 。 


m 如 果 提 供 在 线 访问 功能 ， 你 就 必须 为 每 一 位 用 户 提供 一 套 独 立 的 用 户 名 和 密码 ， 这 就 
意味 着 你 可 以 追踪 用 户 的 操作 行为 。 

m 由 于 用 户 都 是 可 以 识别 的 ， 你 需要 提供 一 种 方法 来 回应 他 们 遇 到 的 各 种 问题 ， 比 如 授 
权 信息 丢失 和 系统 的 使 用 方法 。 

m 使 用 通用 的 用 户 名 和 密码 可 不 是 什么 好 主意 ， 除 非 你 为 数据 库 构 建 了 一 套 安全 的 前 端 
接口 ， 并 做 好 了 一 些 基本 的 预防 措施 ， 比 如 限制 用 户 能 够 执行 的 查询 语句 个 数 ， 以 及 
查询 所 占用 的 时 长 。 如 果 一 个 oUTER JoIN 查 询 引 入 了 数据 量 在 几 个 IT 级别 的 数据 表 ， 
很 有 可 能 造成 数据 库 宕 机， 从 而 影响 其 他 用 户 的 使 用 。 

m 你 是 否 想 让 用 户 通 过 编写 程序 的 方式 来 访问 数据 ， 比 如 使 用 ODBC 或 JDBC 这 样 的 中 间 
fr? 如 果 是 的 话 ， 请 把 访问 权限 做 到 计划 之 中 ， 并 做 好 相应 的 服务 器 配置 。 
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DAP| 一 一 设计 一 个 允许 用 户 访问 数据 的 应 用 编程 接口 (API ) 可 以 让 最 终 用 户 编写 他 们 自 
己 的 数据 访问 程序 ， 并 以 可 预测 的 数据 形式 接收 结果 集 。API 的 优势 在 于 它 能 以 一 种 已 知 
的 、 受 限 的 方式 通过 互联 网 访问 数据 ， 同 时 用 户 也 不 需要 解析 数据 文件 或 纠结 于 数据 格 
式 的 转换 。 但 在 具体 操作 中 还 需 考虑 以 下 几 点 内 容 。 


m 构建 一 个 好 的 API, 成 本 比 之 前 列举 的 所 有 选择 都 要 高 。 但 是 , 如 果 你 有 大 量 的 客户 群 ， 
同时 负责 支持 的 员工 又 比较 有 限 , 那么 从 长 远 角 度 来 看 构建 API 确 实 会 节省 不 少 资金 






































大 o 
m 与 其 他 方法 相 比 ， 使 用 API 需 要 用 户 掌握 更 多 的 技术 知识 。 你 需要 准备 好 足够 的 文档 和 
必要 的 演示 程序 。 


W 你 需要 做 好 授权 与 安全 计划 来 跟踪 数据 访问 者 以 及 他 们 的 行为 。 如 果 你 计划 为 数据 访 
问 设置 不 同 的 级 别 ， 例 如 ， 将 数据 按照 不 同 的 层次 进行 划分 ， 就 应 该 事先 为 用 户 提供 
一 种 可 以 提升 他 们 访问 级 别 的 机 制 。 

m 与 一 般 的 数据 库 访问 一 样 ， 用 户 可 能 会 造成 API 的 过 度 使 用 或 滥用 。 你 需要 提早 做 好 计 
划 并 采取 预防 措施 来 定位 并 移 除 那 些 含有 恶意 或 粗心 的 用 户 ， 因 为 这 些 用 户 很 有 可 能 

通过 有 意 或 无 意 的 滥用 导致 服务 无 法 使 用 。 


选择 哪 种 发 布 方法 与 你 的 预算 ( 既 包 括 资金 预算 ， 也 包括 时 间 预 算 ) 和 用 户 的 期 望 有 很 大 关 
系 。 我 能 给 你 的 最 好 建议 就 是 我 一 直 以 来 都 在 遵循 的 开源 软件 格言 一 一 早 发 布 和 常 更 新 。 这 对 我 
来 说 还 是 挺 管用 的 ， 因 为 我 的 社区 用 户 群 体 比较 小 ,而 且 预 算 有 限 ， 也 没有 太 多 的 闲暇 时 间 去 做 
那些 尚 不 知 有 效 还 是 无 效 的 打包 计划 。 






















































































警句 能 言 一 一 使 用 GitHub 发 布 数据 


GitHub 是 一 个 基于 云 的 文件 仓库 , 它 的 设计 目的 是 为 了 帮助 软件 开发 者 在 软件 开发 中 进行 协 
E, 并 且 可 以 存放 可 供 他 人 下 载 的 代码 。 这 种 方式 在 当下 是 很 流行 的 ,其 中 存放 的 项 目 已 经 超过 
了 1600 万 。 正 是 出 于 这 个 原因 ， 与 我 交流 过 的 许多 数据 科学 家 都 会 建议 在 GitHub 上 存放 数据 。 


虽然 GitHub 因 它 的 普遍 性 和 易 用 性 而 著称 , 但 在 存储 非 代码 类 型 的 数据 时 还 是 有 一 些 局 限 性 
的 , 我 们 应 该 注意 那些 可 能 对 数据 造成 影响 的 规则 与 条 款 。 这 些 规则 和 条 款 在 GitHub 的 帮助 指南 
中 都 有 提 到 ， 其 访问 地 址 为 https://help.github.com/articles/what-is-my-disk-quota， 我 们 在 这 里 将 其 
归纳 为 以 下 两 点 。 

O 首先 ，GitHub 是 对 源 代码 控制 系统 Git 的 包装 ，Git 系 统 不 是 专门 用 来 存放 SQL 文件 的 。 帮 
助 文档 中 已 经 说 明 :“ 像 Git 这 样 的 版 本 控制 系统 不 适合 管理 大 型 的 SQL 文件 。” 我 本 人 对 
“不 适合 ”的 含义 并 不 是 十 分 理解 ， 但 我 能 够 确信 的 是 ， 我 不 希望 用 户 不 高 兴 。 
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口 其 次 ，GitHub 对 文件 大 小 有 着 严格 的 限制 。 它 明确 规定 了 每 个 项 目 (仓储 ) 的 存储 上 限 
为 1 GB ， 每 个 独立 文件 的 存储 上 限 为 100 MB。 好 在 我 发 布 的 大 部 分 数据 文件 的 体积 都 小 
于 这 个 限制 ， 但 由 于 每 年 都 要 发 布 许多 以 时 间 为 顺序 的 文件 ， 所 以 我 不 得 不 建立 多 个 仓 
储 。 在 这 种 限制 规定 之 下 ， 每 当 要 发 布 新 文件 的 时 候 ， 我 都 得 先 做 一 下 检查 ， 看 看 是 不 

是 有 超过 文件 大 小 限制 的 文件 。 这 件 事 很 快 就 让 我 感到 头疼 。 


简 而 言 之 , GitHub 本 身 推荐 使 用 网 络 主机 的 方式 来 发 布 文件 , 特别 是 在 这 些 文件 体积 较 大 或 
是 它们 专门 面向 数据 库 的 时 候 。 如 果 你 决定 把 文件 放 在 GitHub 上 , 请 一 定 要 小 心 对 待 文件 中 的 用 
户 授权 信息 。 这 包括 数据 库 系 统 的 用 户 名 和 密码 ，Twitter 账 号 认证 用 的 密 钥 和 加 密 信息 ， 或 者 是 
与 其 他 个 人 隐私 相关 的 内 容 。 因 为 GitHub 的 核心 就 是 Git 仓 库 ， 所 以 你 犯 下 的 所 有 错误 会 被 永远 
地 保留 下 来 ,除非 是 仓库 被 删除 。 如 果 你 发 现 不 小 心 把 个 人 信息 发 布 到 GitHub 上 了 ，, 那 就 应 该 立 
即 重新 设置 所 有 账户 的 认证 信息 ， 并 重新 创建 加 密 文件 和 密码 。 
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在 用 户 取 得 数据 访问 权限 时 , 理想 的 情况 是 他 们 事先 已 经 清楚 自己 会 拿 到 什么 样 的 数据 。 虽 
然 为 数据 编写 文档 这 项 任务 对 你 来 说 可 能 是 后 续 的 额外 工作 , 但 对 于 用 户 来 说 这 是 非常 重要 的 寻 
情 , 因为 他 们 不 可 能 像 你 一 样 对 数据 的 每 一 处 细节 都 十 分 了 解 , 也 无 法 得 知 这 些 数 据 都 经 过 什么 
样 的 处 理 。 在 这 一 方 中 ， 我 们 会 对 数据 包 中 的 内 容 逐 一 进行 检查 ， 以 确保 它们 比较 容易 理解 。 
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8.2.1 README 文件 


README 文 件 在 计算 机 上 有 一 段 较 长 的 历史 。 它 就 是 一 个 普通 的 文本 文件 ， 随 着 软件 包 一 
同 发 布 ， 有 时 会 和 其 他 文件 一 起 放 在 一 个 目录 中 ， 其 目的 是 让 用 户 先 阅读 README 文 件 ， 然 后 
再 使 用 其 余 的 文件 。README 文 件 会 告知 用 户 有 关 软 件 包 的 一 些 重要 信息 ， 比 如 作者 是 谁 ， 出 
于 什么 目的 编写 了 这 个 软件 ， 安 装 指南 ， 已 知 的 问题 ， 还 有 其 他 的 基本 使 用 指南 。 


如 果 你 正 准备 构建 一 些 数据 包 ， 比 如 压缩 一 些 文本 文件 或 是 SQL 文件 , 那么 最 好 是 在 压缩 之 
前 就 把 这 个 README 文 件 准 备 好 。 如 果 你 正在 创建 为 数据 文件 而 准备 的 网 站 或 在 线 目 录 ， 在 一 
个 显眼 的 地 方 添加 README 文 件 效果 会 非常 明显 。 下 面 截图 中 显示 的 就 是 我 曾 发 布 过 的 一 个 名 
为 FLOSSmole 的 网 站 目录 。 当 时 我 添加 了 一 个 README 目 录 ， 并 将 所 有 希望 用 户 阅 读 的 文件 放 
了 进去 。 另 外 我 还 在 目录 名 字 的 前 面 添加 了 一 个 下 划 线 , 这 样 就 可 以 让 它 在 按照 字母 排序 显示 的 
时 候 列 在 第 一 位 上 。 
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Index of /data 
Name Last modified Size Description 

> Parent Directory = 
£P README/ 19-Sep-2014 15:12 E 
C3 al/ 06-Mar-2014 16:38 - 
(23 apache/ 18-Sep-2013 19:16  - 
C3 deb/ 02-Oct-2013 13:07. - 
(23 fc 11-Mar-2014 11:53 - 











包含 README 文 件 的 目录 显示 在 最 顶端 


在 README.txt 文 件 内 部 ， 我 针对 里 面包 含 的 文件 为 用 户 编写 了 概要 说 明和 详细 指南 。 下 面 
是 其 中 一 个 README 文 件 的 内 容 示例 : 


README for http://flossdata.syr.edu/data directory 

















What is this place? 
This is a repository of flat files or data "dumps", from the FLOSSmole 
project. 


What is FLOSSmole? 

ince 2004, FLOSSmole aims to: 

--freely provide data about free, libre, and open source software 
FLOSS) projects in multiple formats for anyone to download; 
--integrate donated data & scripts from other research teams; 
--provide a community for researchers to discuss public data about 
FLOSS development. 

FLOSSmole contains: Several terabytes (TB) of data covering the period 
2004-now, and growing with data sets from nearly 10,000 web-based 
collection operations, and growing each month. This includes data for 
millions of open source projects and their developers. 


Un 





If you use FLOSSmole data, please cite it accordingly: 

Howison, J., Conklin, M., & Crowston, K. (2006). FLOSSmole: A 
collaborative repository for FLOSS research data and analyses. 
International Journal of Information Technology and Web Engineering, 
16339. 017526. 


What is included on this site? 

Flat files, date and time-stamped, from various software forges & 
projects. We have a lot of other data in our database that is not 
available here in flat files. For example, IRC logs and email from 
various projects. For those, see the following: 


1. Direct database access. Please use this link for direct access to 
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our MySQL database: http://flossmole.org/content/direct-db-access- 
flossmole-collection-available 


2. FLOSSmole web site. Includes updates, visualizations, and examples. 
http://flossmole.org/ 


这 个 README 文 件 对 整个 目录 中 的 所 有 文件 做 了 说 明 ， 你 也 可 以 为 每 一 个 文件 或 目录 创建 
一 份 README 文 件 。 具 体 怎 么 做 由 你 说 了 算 。 


8.22 文件 头 


另外 还 有 一 种 与 用 户 高 效 沟通 的 方式 , 就 是 在 每 个 文件 的 头 部 放置 一 些 关于 文件 格式 和 用 途 
的 解释 性 文字 ,这 种 做 法 尤其 适用 于 文本 文件 和 SQL 文件 。 一 种 常见 的 实施 方案 是 在 文件 的 头 部 
为 每 一 行 说 明文 字 添 加 注释 字符 前 级 ， 比 如 # 或 //。 


常常 包含 在 文件 头 部 的 信息 有 : 


a 文件 名 和 其 所 在 的 包 名 

口 文件 作者 或 是 所 有 协作 者 的 名 字 ， 以 及 他 们 的 组 织 和 所 在 地 
口 文件 发 布 日 期 

口 文件 版 本 号 ， 及 其 早期 版 本 的 所 在 位 置 
a 文件 的 用 途 

口 原始 数据 来 源 ， 数 据 前 前 后 后 经 过 哪些 处 理 

口 文件 格式 与 组 织 方法 ， 比 如 列举 出 各 个 字段 和 它们 对 应 的 含义 
口 文件 使 用 条 款 和 许可 协议 


下 面 演示 的 文件 头 部 信息 取 自 我 在 之 前 一 个 数据 项 目 中 发 布 的 一 个 TSV 文 件 。 其 中 我 对 数据 
内 容 做 了 解释 说 明 ， 并 给 出 了 每 个 字段 的 解析 方法 。 我 同时 规定 了 数据 引用 和 分 享 的 相关 条 款 。 
我 们 会 在 稍 后 对 许可 协议 和 分 享 做 进一步 讨论 。 


Author: Squire, M. & Gazda, R. 

License: Open Database License 1.0 

This data 2012LTinsultsLKML.tsv.txt is made available under the 
Open Database License: http://opendatacommons.org/licenses/ 
odbl/1.0/. 












































filename: 2012LTinsultsLKML.tsv.txt 

explanation: This data set is part of a larger group of data 
sets described in the paper below, and hosted on the 
FLOSSmole.org site. Contains insults gleaned from messages sent 
to the LKML mailing list by Linus Torvalds during the year 2012 





explanation of fields: 
date: this is the date the original email was sent 
markmail permalink: this is a permalink to the email on markmail 
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# (for easy reading) 
# type: this is our code for what type of insult this is 
# mail excerpt: this is the fragment of the email containing the 
# insult(s). Ellipses (...) have been added where necessary. 
# 
# Please cite the paper and FLOSSmole as follows: 
# 
# Squire, M. & Gazda, R. (2015). FLOSS as a source for profanity 
# and insults: Collecting the data. In Proceedings of 48th 
# Hawai'i International Conference on System Sciences (HICSS-48). 
# IEEE. Hawaii, USA. 5290-5298 
# 
# Howison, J., Conklin, M., & Crowston, K. (2006). FLOSSmole: A 
# collaborative repository for FLOSS research data and analyses. 
# International Journal of Information Technology and Web 
# Engineering, 1(3), 17-26. 


如 果 你 预测 用 户 会 定期 收集 你 的 数据 文件 的 话 ， 那 就 应 该 在 文件 头 部 使 用 一 致 的 注释 字符 。 
在 前 一 个 例子 中 , 我 使 用 的 字符 是 #。 这 样 做 的 原因 是 用 户 可 能 会 使 用 程序 自动 下 载 并 解析 数据 ， 


可 能 会 把 数据 加 载 到 数据 局 









































T 


理 的 头 部 信息 。 


8.2.3 ”数据 模型 和 图 表 


每 当 你 要 发 布 构建 数据 库 用 的 SQL 文件 ,或 者 是 提供 
化 图 表 会 对 用 户 有 很 大 的 帮助 ， 比 如 实体 关系 图 CEntity-Relationship Diagram, ERD )。 





,也 可 能 是 在 程序 中 使 用 。 统 一 的 注释 字符 可 以 让 用 户 跳 过 不 需要 处 





在 线 数据 库 查 询 访 问 的 时 候 , 使 月 


Hn] gi 


在 我 做 过 的 一 些 项 目 中 , 我 喜欢 为 表格 提供 文字 性 描述 信息 ,就 像 上 一 他 提 到 的 文件 头 或 是 


README 文 件 ， 但 同时 还 要 提供 一 张 可 视 化 图 
的 数据 库 非常 大 , 所 以 我 在 图 表 里 涂 上 了 各 种 合 
注 以 表明 这 是 数据 库 的 哪个 部 分 。 


下 面 的 截图 "显示 的 是 其 中 一 张 表现 概要 信息 的 大 图 。 这 里 
































Qa 彩色 图 片 请 到 www.ituring.com.cn/book/1702 下 载 。 一 一 编者 注 


表 ， 用 来 表现 数据 表 之 间 的 关系 。 由 于 发 布 出 来 
HEU, 并 为 其 中 的 每 一 个 部 分 加 上 不 同 的 标 


EE 示 的 是 经 过 缩小 处 理 后 的 实体 
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由 于 这 个 实体 关系 图 非常 大 ,看 起 来 很 困难 ， 即 使 是 在 一 个 超大 的 显示 器 中 , 我 也 不 得 不 采 
用 不 同 的 颜色 来 标记 数据 库 的 不 同 部 分 ， 并 在 有 需要 的 地 方 添加 上 注释 。 下 面 的 截图 "是 左上 方 
橙色 部 分 的 近景 展现 。 








PK can refer back to this table for he 
parent, These lines are not drawn on 
this ERD because of space constrants. 

ATA EA Ike gem eS T Ae a 


This table holds fhe list of forges (or donation 


© forge. long, name VARCHAR(SO) : -村 
forge home, page VAROHAR(255) | Olocd fle name VARGHAR(255) 


SIRGE TI i 
mere 





* fle id INT(11) 

? creator id VARCHAR(45) 
© last updated DATETIME 
Indexes 














数据 库 其 中 一 个 部 分 的 近景 图 ， 包 括 数据 表 的 相关 注释 信息 


彩色 图 片 请 到 www.ituring.com.cn/book/1702 下 载 。 一 一 编者 注 
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通过 这 张 图 ,用户 可 以 对 数据 库 的 不 同 部 分 有 一 个 大 概 的 了 解 。 更 重要 的 是 , 注释 信息 也 直 
接 包含 在 图 表 中 ， 如 果 用 户 想 要 查看 某 个 特定 的 字段 ， 可 以 参考 README 文 件 或 者 是 对 应 文件 
内 部 的 头 信息 。 


许多 RDBMS 工 具 都 可 以 用 来 创建 ERD 文 件 ，MySQL Workbench 就 是 其 中 之 一 ( 刚刚 看 到 的 
带 颜 色 的 图 表 ， 就 是 我 用 这 个 工具 创建 的 )。 其 他 比较 流行 的 工具 还 包括 Microsoft Visio, Sparx 
Enterprise Architect 和 draw.io。 而 且 许多 这 样 的 工具 都 可 以 连接 到 RDBMS 系 统 ， 通 过 逆向 工程 操 
作 从 数据 库 中 生成 图 表 , 或 者 是 正 向 工程 从 图 表 中 生成 SQL 语句 。 但 无 论 是 哪 种 情况 ， 实 体 关 系 
图 都 可 以 帮助 用 户 更 好 地 了 解数 据 模型 。 



























































8.2.4 维基 或 CMS 


另 一 种 组 织 项 目 文档 的 方式 就 是 把 它们 发 布 到 维基 或 是 内 容 管 理 系统 ( Content Management 
System, CMS) 上 。 可 供 我 们 选择 的 CMS 和 维基 软件 包 有 几 百 种 ,其 中 名 气 较 大 的 有 MediaWiki、 
WordPress, 、Joomlal 和 Drupal。 此 外 ，GitHub 对 托管 在 它 上 面 的 项 目 也 提供 了 维基 服务 ， 类 似 的 
软件 托管 服务 还 有 Sourceforge 和 Bitbucket。 


你 可 以 使 用 CMS 或 维基 提供 文件 的 下 载 链 接 ， 也 可 以 使 用 CMS 来 发 布 文档 与 产品 说 明 。 我 
就 曾 在 工作 中 用 CMS 存放 实时 更 新 的 博客 文章 、 示 例 搬 图 和 数据 图 表 , 甚至 还 把 它 当 作文 件 仓 库 
使 用 ， 用 来 存放 对 用 户 有 帮助 的 数据 脚本 程序 。 


下 面 是 数据 项 目的 CMS 或 维基 应 该 包含 的 一 些 常 见 文档 内 容 。 


o 项 目 说 明 一 告诉 用 户 当前 数据 项 目的 目的 以 及 项 目 负责 人 。 这 里 还 可 以 包含 参与 项 目 
的 建议 ， 有 关 加 入 邮件 列表 或 讨论 区 的 方法 ， 以 及 项 目 负责 人 的 联系 方式 。 
o 数据 获取 -解释 不 同 的 数据 访问 方式 。 常 见 的 方式 包括 直接 访问 数据 库 、 文 件 下 载 或 
使 用 API。 同 时 还 解释 了 注册 与 登录 的 操作 流程。 
O 数据 使 用 一 包括 查询 、 使 用 示例 、 数 据 的 图 形 化 展现 、 图 表 和 实体 关系 图 等 。 同 时 还 
要 提供 都 有 哪些 人 使 用 了 这 些 数 据 。 另 外 ， 在 必要 的 时 候 ， 列 出 你 所 期 望 的 数据 使 用 途 
径 和 许可 条 款 。 
在 这 一 节 中 ， 我 们 讨论 了 多 种 与 数据 有 关 的 文档 编写 方法 ， 包 括 README 文 件 、 文 件 头 、 
实体 关系 图 和 基于 网 络 的 解决 方案 。 在 这 些 讨论 中 ,我 们 还 涉及 一 些 与 数据 许可 协议 有 关 的 概念 
另外 还 解答 了 一 些 数据 引用 与 分 享 的 问题 ,在 下 一 节 里 , 我们 将 深入 讨论 数据 集 许可 协议 的 内 容 。 






























































8.3 ”为 数据 设置 使 用 条 款 与 许可 协议 


数据 发 布 计划 的 一 个 重要 部 分 就 是 决定 如 何 让 用 户 使 用 、 分 析 或 是 重新 编排 发 布 出 来 的 数 
据 。 而 这 些 对 用 户 应 该 如 何 使 用 数据 的 期 望 ， 就 是 数据 使 用 条 款 (Terms of Use, ToU )。 男 外 ， 
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数据 使 用 条 款 还 可 以 用 来 赋予 用 户 一 些 具体 权利 ， 比 如 允许 用 户 修改 数据 或 者 是 重新 发 布 数据 。 
赋予 用 户 的 这 些 权 利 的 集合 称 为 数据 许可 协议 。 用 户 可 以 选择 同意 (或 不 同意 ) 数据 使 用 条 款 来 
使 用 (或 不 使 用 ) 你 的 数据 集 。 他 们 也 可 以 根据 数据 的 许可 证 条 款 来 决定 是 否 要 使 用 数据 。 

dix — rp, 我 们 将 概述 一 些 可 在 设置 用 户 的 数据 使 用 规范 时 作为 参考 的 选项 。 同 时 我 们 还 
会 了 解 一 些 需 要 在 使 用 条 款 中 放置 的 常见 内 容 , 以 及 可 以 直接 应 用 到 要 发 布 数据 集 上 的 预 设 许可 
协议 。 



































常见 使 用 条 款 


并 非 所 有 人 分 享 数据 的 目的 都 是 一 样 的 ,以 我 个 人 为 例 , 我 参与 的 一 个 项 目的 具体 目标 就 是 
为 科学 社区 收集 、 清 洗 与 重新 发 布 数据 。 因 为 我 本 人 是 一 名 大 学 教授 , 所 以 我 的 部 分 工作 职责 就 
是 发 表 学 术 人 研究 论文 、 软 件 和 一 些 对 他 人 有 用 的 数据 集 。 因此 , 人 们 如 何 援引 我 的 论文 和 数据 集 ， 
对 我 来 说 是 非常 重要 的 。 但 是 , 一 位 非 学 术 界 的 朋友 就 常常 以 匿名 身份 发 布 数据 集 , 毫 不 在 乎 那 
些 数 据 使 用 条 款 和 注意 事项 。 


下 面 列 出 的 是 在 设置 数据 使 用 条 款 时 需要 考虑 的 一 些 内 容 。 


口 引用 。 当 人 们 基于 你 的 数据 成 果 发 布 他 们 自己 的 内 容 时 ， 你 是 否 需要 他 们 明确 声明 这 些 

原始 数据 的 来 源 ” 如 果 是 的 话 ， 他 们 应 该 使 用 什么 样 的 URL 或 引证 呢 ? 

口 隐私 。 你 为 用 户 或 用 户 信息 设置 了 隐私 保护 条 例 吗 ? 你 需要 用 户 遵守 隐私 或 研究 规章 
吗 ? 例如 , 有 的 人 会 要 求 用 户 遵 守 他 们 院 校 研究 委员 会 (IRB ) 或 是 其 他 研究 伦理 群体 ( 如 
互联 网 研究 员 协 会 ，AOIR ) 所 规定 的 规章 条 款 。 

O 数据 的 合理 使 用 。 你 是 否 怀疑 数据 集 可 能 会 被 乱用 ? 会 有 人 把 数据 从 相应 的 环境 中 分 离 

出 来 吗 ? 这 些 数据 是 否 会 以 不 好 的 方式 与 其 他 数据 结合 使 用 ”对 于 有 些 项 目 来 说 ， 最 好 

还 是 为 用 户 设置 一 些 数据 使 用 建议 。 

口 联系 方式 。 当 用 户 想 要 使 用 你 的 数据 时 ， 你 希望 他 们 用 什么 方式 联系 你 呢 ? 他 们 是 否 有 

必要 通知 你 呢 ? 作为 数据 提供 者 ， 准 备 好 一 份 关于 如 何 联系 以 及 是 否 有 必要 联系 你 的 指 

南 ， 对 于 那些 对 数据 有 疑问 的 用 户 是 非常 有 帮助 的 。 


正如 我 们 之 前 在 8.2 节 中 讨论 的 那样 ， 为 潜在 用 户 准备 的 数据 集 使 用 条 款 可 以 放 在 README e 
文件 、 文 件 头 或 是 网 站 上 。 如 果 你 提供 了 在 线 数据 库 访 问 功能 ， 那么 可 以 通知 用 户 ,接受 数据 库 
系统 的 用 户 名 和 密码 就 等 同 于 同意 了 你 的 条 款 。 类 似 的 做 法 也 可 以 用 在 API 的 访问 上 ， 用 户主 动 
使 用 认证 令 牌 或 访问 证 书 就 表明 同意 了 你 设置 的 使 用 条 款 。 

当然 , 这 些 做 法 都 要 符合 不 同 国 家 和 组 织 所 定制 的 法 律 法 规 。 当 然 , 要 是 完全 不 借助 外 部 的 
帮助 , 想 把 这 些 事情 全 都 搞定 也 几乎 是 不 可 能 的 。 为 了 帮助 数据 提供 考 为 他 们 的 用 户 设置 使 用 条 
款 ， 我 们 可 以 使 用 一 些 现成 的 通用 许可 协议 。 接 下 来 我 们 就 其 中 的 两 项 展开 讨论 。 
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1. 知识 共享 许可 协议 


知识 共享 ( Creative Commons, CC) 许可 协议 是 一 些 通用 的 条 款 集合 ,用 于 帮助 有 版 权 的 材 
料 的 提供 者 保护 他 们 的 版 权 。 这 些许 可 协议 规定 了 作品 使 用 者 应 当 如 何 使 用 这 些 来 自 原创 作者 的 
成 果 。 通过 事先 声明 的 许可 协议 , 作品 的 所 有 者 可 以 避免 为 每 个 需要 修改 或 重新 发 布 作品 的 个 人 
单独 发 放 许可 。 


不 过 知识 共享 许可 协议 也 是 有 缺陷 的 一 一 但 对 你 来 说 也 许 根 本 就 不 算 回 事 儿 , 因为 这 完全 取 
决 于 你 如 何 使 用 它 一 一 知识 共享 许可 协议 是 面向 有 版 权 的 作品 的 。 那 你 的 数据 库 或 数据 集 是 否 
版 权 呢 ? 你 有 兴趣 为 数据 库 中 的 内 容 或 者 是 数据 库 本 身 加 上 许可 条 款 吗 ? 要 回答 这 些 问 题 , 你 可 
以 看 看 知识 共享 许可 协议 的 维基 文档 , 它 会 深入 地 讨论 我 们 需要 考虑 的 每 一 处 细节 。 就 连 与 数据 
和 数据 库 有 关 的 常见 问题 也 都 为 我 们 一 一 解答 了 ， 访 问 地 址 为 https:/wiki.creativecommons. 
Org/Data。 


2. 开放 数据 库 协 议和 开发 数据 共用 协议 


还 有 一 种 为 数据 添加 许可 条 款 的 方案 就 是 使 用 开放 数据 库 协 议 (Open Database License, 
ODbL )。 这 个 许可 协议 一 般 用 于 数据 库 。 在 开放 知识 基金 会 ( Open Knowledge Foundation, OKF ) 
上 有 一 个 两 分 钟 长 的 用 户 指南 ， 借 此 我 们 可 以 学 习 如 何 开放 我 们 的 数据 ， 具 体内 容 可 以 访问 
http://OpenDataCommons.org/guide/。 

如 果 你 还 希望 选择 更 多 的 方案 , 可 以 访问 开放 知识 基金 会 的 男 一 个 网 站 http://OpenDefinition. 
org， 这 里 有 更 多 现成 的 许可 协议 。 从 非常 开放 的 公共 领域 ， 到 演绎 作品 的 归属 与 共享 ， 各 种 许 
可 协议 一 应 俱全 。 此 外 , 他 们 还 提供 了 一 个 开放 数据 手册 , 利用 这 个 手册 你 可 以 方便 地 完成 针对 
数据 库 或 数据 集 的 知识 产权 构建 过 程 。 你 可 以 把 开放 数据 手册 下 载 下 来 使 用 , 或 者 是 直接 访问 它 
的 在 线 地 址 : http;//OpenDataHandbook.org 

































































8.4 数据 发 布 

当 你 准备 好 数据 包 ， 就 可 以 开启 发 布 流 程 了 。 通 过 发 布 数据 ， 可 以 让 更 多 的 人 来 使 用 它们 。 
如 果 你 已 经 对 数据 的 用 户 团 体 有 了 预先 判断 , 那么 发 布 过 程 就 跟 往 邮件 列表 或 某 个 研究 小 组 发 送 
一 个 URL 那 么 简单 。 但 是 ， 有 了 时候 我 们 创建 的 数据 集 可 能 会 吸引 更 多 、 更 复杂 的 受众 群体 。 

















8.44.1. 数据 集 清单 列表 

互联 网 上 有 许多 可 用 的 数据 集合 列表 , 它们 大 多 都 是 围绕 某 个 主题 来 进行 组 织 的 。 这 些 元 数 
据 集合 (集合 的 集合 ) 的 发 布 者 通常 都 非常 乐于 分 享 新 的 数据 源 。 这 些 元 数据 集合 可 能 会 包含 以 
下 内 容 。 
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口 具有 相同 主题 的 数据 集 ， 人 例如， 音乐 数据 、 生 物 学 数据 或 是 新 闻 故 事 的 文章 集合 。 
a 与 解决 同 种 问题 相关 的 数据 集 ， 例 如 ， 可 以 用 于 推荐 系统 开发 的 数据 集 ， 或 是 能 够 训练 
机 需 学 习 分 类 器 的 数据 集 。 
口 与 某 个 技术 问题 相关 的 数据 集 ， 例 如 ， 设 计 用 于 测试 某 个 软件 或 硬件 设计 的 数据 集 。 
口 设计 用 于 特定 系统 的 数据 集 ， 例 如 ， 经 过 优化 后 可 以 用 于 学 习 R 语 言 编 程 的 数据 集 ， 或 是 
用 于 Tableau 可 视 化 服务 的 数据 集 ， 又 或 是 像 Amazon Web Services 这 样 基于 云 技术 平台 的 
数据 集 。 
口 有 着 同 种 类 型 许可 协议 的 数据 集 ， 例 如 ， 只 适用 于 公共 领域 的 数据 ， 或 是 专门 为 学 术 研 
究 而 清洗 过 的 数据 。 


如 果 你 觉得 上 面 的 列表 中 没有 体现 出 你 的 数据 集 的 特点 , 或 者 是 不 满足 你 对 元 数据 集合 的 要 
求 ， 那 么 你 完全 可 以 创建 一 个 适合 自己 使 用 的 数据 仓库 。 



























































8.4.2 Stack Exchange 上 的 Open Data 





从 http://opendata.stackexchange.com 可 以 访问 Stack Exchange 的 Open Data 讨 论 区 ， 这 里 全 是 与 
开源 数据 集 有 关 的 问题 和 答案 。 我 曾 在 这 里 找到 过 许多 有 趣 的 数据 集 ， 有 时 ,我 也 会 用 我 自己 的 
数据 集 来 回答 其 他 人 提出 的 问题 。 通 过 这 个 Q&A 网 站 ， 我 们 还 可 以 了 解 到 人 们 都 有 哪些 类 型 的 
问题 ， 以 及 他 们 喜欢 什么 样 的 数据 格式 。 


在 Stack Exchange 上 ， 如 果 你 想 使 用 数据 来 回答 其 他 人 提出 的 问题 ， 那 就 一 定 要 保证 数据 的 
访问 方式 、 相 关 文 档 和 许可 协议 符合 我 们 之 前 讨论 过 的 标准 。 在 Stack Exchange 这 样 的 网 站 上 ， 
这 一 点 尤为 重要 ， 央 为 问题 也 好 , BREL, 用户 都 是 有 权 为 它们 给 出 差 评 的 。 谁 也 不 愿意 将 数 
据 连 同一 大 堆 失 效 的 链接 和 令 人 费解 的 文档 一 起 发 布 出 来 。 






































8.4.3 ”编程 马拉松 


还 有 一 种 让 人 们 积极 参与 数据 活动 的 办 法 ,就 是 把 数据 当 作 编 程 马拉松 数据 集 发 布 出 来 。 数 
据 编程 马拉松 通常 指 的 是 , 程序 员 和 数据 科学 家 们 彩 集 在 一 起 , 花费 一 整 天 或 者 是 几 天 的 时 间 来 
操练 各 种 不 同 的 技能 ， 或 是 解决 与 数据 有 关 的 茶 一 类 问题 。 


通过 搜索 引擎 查询 一 下 就 可 以 得 知 当 下 编程 马拉松 所 关心 的 内 容 。 有 的 编程 马拉松 是 由 公司 
赞助 发 起 的 , 而 有 的 则 是 用 于 回应 社会 问题 而 举办 的 。 这 些 活动 中 有 很 大 一 部 分 都 有 它们 自己 的 
维基 文档 , 或 是 其 他 可 以 让 你 添加 URL 和 数据 描述 的 方法 , 借助 这 些 途 径 , 你 可 以 发 布 在 活动 日 
要 使 用 的 数据 集 。 其 实 还 有 一 个 不 是 特别 好 的 方法 可 以 推荐 , 那 就 是 只 举办 一 次 编程 马拉松 , 之 
后 便 逐 渐 地 将 该 活动 转换 成 其 他 形式 。 或 者 是 不 定时 举办 ， 并 由 一 些 临 时 成 立 的 小 组 承办 。 


如 果 你 的 数据 集 是 用 于 学 术 目 的 的 ， 比 如 研究 性 质 的 数据 集 , 你 可 能 会 考虑 在 学 术 会 议 期 间 
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或 之 后 , 举办 你 自己 的 编程 马拉松 。 这 是 一 个 让 人 们 积极 参与 数据 操作 的 绝 佳 方法 , 至少 也 是 一 
个 可 以 让 你 从 参与 人 员 中 得 到 数据 改善 或 构建 建议 的 好 机 会 。 


























8.5 “小结 


在 这 一 章 中 , 我 们 学 习 了 分 享 数据 成 果 的 各 种 可 行 方法 , 讨论 了 数据 打包 与 发 布 的 解决 方案 
和 折 中 方法 。 另 外 还 学 习 了 文档 编写 的 基础 知识 , 包括 用 户 需 要 知道 的 重要 事情 ， 以 及 如 何在 文 
档 文件 中 把 这 些 信息 传达 出 去 。 在 此 过 程 中 我 们 发 现 许 可 条 款 和 使 用 约定 几乎 总 是 出 现在 文档 
中 ,但 它们 的 真正 含义 是 什么 ,又 该 如 何 根据 自己 的 数据 集 情 况 进 行 选择 呢 ? 为 了 解答 这 些 问 题 ， 
我 们 又 进一步 了 解 了 适用 于 数据 项 目的 一 些 常见 的 使 用 条 款 ， 同 时 还 有 最 为 常见 的 许可 方案 : AH 
识 共 享 许可 协议 和 开放 数据 库 协 议 。 最 后 , 我 们 一 起 头脑 风暴 了 实际 中 用 得 上 的 一 些 数 据 发 布 方 
法 ， 包 括 数据 的 元 数据 集 、Stack Exchange 网 站 的 Open Data 讨 论 区 ， 以 及 以 数据 为 中 心 的 编程 马 


拉 松 。 


到 此 为 止 , 你 应 该 已 经 对 数据 清洗 项 目 有 了 全 面 的 认识 。 在 接 下 来 的 两 章 中 , 我 们 将 完成 更 
长 、 更 具体 的 项 目 ， 并 把 之 前 学 到 的 技术 应 用 到 其 中 。 
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接 下 来 的 两 章 会 讲解 两 个 完整 的 项 目 , 我 们 会 把 之 前 学 过 的 所 有 数据 清洗 技术 付 诸 实践 。 我 
们 可 以 把 每 个 项 目 都 想象 成 一 次 晚餐 聚会 , 并 可 以 借 此 机 会 在 数据 科学 厨房 里 一 显 身手 。 为 了 成 
功 举办 晚餐 聚会 ,我 们 应 当 事 先 准备 好 菜谱 和 客人 的 名 单 。 但 是 ， 对 于 高 手 而 言 ， 如 何 应 对 计划 
之 外 的 突 发 事件 , 这 才 算 得 上 真正 的 考验 。 不管 原来 计划 好 的 菜谱 和 购物 清单 有 多 么 周详 ， 有 时 
还 是 有 可 能 漏 掉 某 些 重要 的 原料 。 这 种 情况 下 我 们 是 否 可 以 随机 应 变 , 恰当 地 调整 计划 , 解决 碰 
到 的 各 种 挑战 呢 ? 


在 这 一 章 里 ， 我 们 将 使 用 来 自 Stack Overflow 数 据 库 的 公开 数据 并 进行 数据 清洗 Stack 
Overflow 是 问答 网 站 Stack Exchange 中 的 一 部 分 。 在 这 些 网 站 上 ， 提 出 好 问题 和 回答 问题 可 以 赚 
取 用 户 点 数 和 徽章 。 在 操练 数据 清洗 技术 过 程 中 ， 我 们 会 用 到 第 1 章 中 学 到 的 六 步 处 理 方法 。 


口 确定 问题 种 类 一 一 为 什么 要 关注 这 种 数据 ? 

口 收集 与 保存 数据 ， 内 容 包 括 下 载 数据 、 提 取 Stack Overflow 的 转 储 数据 、 创 建 存放 数据 用 
的 MySQL 数 据 库 ， 以 及 将 数据 导入 MySQL 数 据 库 。 由 于 Stack Overflow 数 据 集 很 庞大 , 我 
们 还 得 创建 数据 量 较 少 的 测试 表 ， 采 用 随机 筛选 数据 的 方法 填充 数据 表 。 

a 在 正式 清洗 整个 数据 集 之 前 ， 在 测试 表 上 进行 一 些 试验 性 的 清洗 工作 。 

口 分 析 数 据 。 我 们 需要 执行 一 些 计 算 逻 辑 吗 ? 应 不 应 该 利用 聚合 函数 计算 数据 的 个 数 或 汇 

总 值 ? 是 否 需 要 按照 某 种 方式 对 数据 进行 转换 ? 

口 如 果 有 可 能 的 话 ， 提 供 一 些 数据 可 视 化 实现 。 

口 调查 研究 并 解决 问题 。 我 们 的 处 理 过 程 有 效 吗 ?最 终 取得 成 功 了 吗 ? 


工作 内 容 确实 不 少 , 不 过 我 们 准备 得 越 早 、 越 充分 ,数据 科学 晚餐 聚会 取得 成 功 的 机 会 就 越 
大 。 













































































9.1 第 一 步 : 关于 Stack Overflow 的 问题 


项 目 开 始 之 前 , 我 们 需要 提出 一 个 只 有 经 过 数据 分 析 才 能 回答 的 问题 。 那 究竟 应 该 从 什么 地 
方 人 手 呢 ? 首先 ， 还 是 回顾 一 下 Stack Overflow 网 站 吧 。 众 所 周知 ， 它 是 一 个 面向 程序 员 的 问答 
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网 站 ， 程 序 员 们 会 在 问题 和 答案 中 使 用 许多 源 代码 、 错 误 日 志和 配置 文件 。 但 有 的 时 候 ,， 尤其 是 
在 Stack Overflow 这 样 的 大 型 网 络 平台 上 ， 个 别人 发 布 出 来 的 文本 数据 会 特别 长 ， 这 就 会 让 每 一 
行 数据 在 文本 长 度 、 数 据 格式 和 可 读 性 方面 的 处 理 变 得 异常 困难 。 


在 阅读 了 许多 含有 大 量 文本 内 容 的 问题 和 答案 之 后 ， 我 想 知 道 ， 在 Stack Overflow 上 程序 员 
是 不 是 通过 Pastebin 或 JSFiddle 等 外 部 网 站 来 链接 他 们 的 代码 或 日 志文 件 ， 比 如 你 可 以 在 
http:/www.Pastebin.com 上 粘贴 大 量 的 文本 内 容 , 既 可 以 是 程序 源 代码 也 可 以 是 日 志文 件 , 之 后 你 
会 得 到 一 个 可 以 与 他 人 分 享 的 简短 URL。 而 且 这 些 代码 分 享 网 站 大 多 数 都 支持 语法 高 亮 显示 , 不 
过 在 默认 情况 下 Stack Overflow 并 没有 这 样 的 功能 。 


在 IRC 和 电子 邮件 中 使 用 代码 分 享 网 站 是 一 件 十 分 常见 的 事情 , 那 Stack Overflow 上 情况 又 如 
何 呢 ? 一 方面 ， 在 IRC 或 电子 邮件 中 使 用 链接 可 以 让 问题 或 答案 的 内 容 变 得 很 简短 ， 这 样 其 余部 
分 阅读 起 来 就 会 容易 得 多 。 但 男 一 方面 , 由 于 使 用 的 代码 分 享 网 站 不 同 , URL 不 见得 会 一 直 有 效 。 
这 就 意味 着 问题 或 答案 可 能 会 随 着 时 间 的 推移 因为 链接 的 失效 而 失去 了 它们 本 身 的 价值 。 


此 外 ， 如 果 使 用 了 JSFiddle， 有 可 能 会 把 问题 摘 得 更 复杂 。 在 JSFiddle 这 样 的 互动 网 站 上 ,你 
不 仅 可 以 把 代码 粘贴 进去 换取 一 个 URL, 还 可 以 让 其 他 人 在 浏览 器 中 编辑 与 运行 程序 代码 。 这 种 
方式 非常 适合 Stack Overflow 这 样 的 提问 与 回答 场景 , 尤其 是 像 JavaScript 这 样 基于 浏览 器 的 语言 。 
然而 ， 链 接 失 效 的 问题 依然 存在 。 男 外 还 有 一 点 要 注意 的 是 ， 与 Pastebin 这 样 的 代码 分 享 网 站 相 
比 ，JSFiddle 对 于 新 手 来 说 不 是 很 容易 上 手 。 






































































































































e JSFiddle b Run Æ Save g TidyUp v JSHint æ Collaboration Login/Sign up 4 
Frameworks & Extensions «div ide'test'»Hello World!-/div» HTML css 
No-Library (pure JS) B 
onLoad B 
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nvaSeript Hello World! 
Languages 
Ajax Requests 


Legal, Credits and Links 
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JSFiddle 上 的 四 个 窗口 ， 分 别 对 应 HTML、CSS、JavaScript 和 运行 结果 
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在 Stack Overflow 的 社区 讨论 中 ， 对 于 是 否 应 该 使 用 代码 分 享 网 站 ， 以 及 包 
含 代码 分 享 网 站 链接 、 不 包含 代码 的 问题 和 答案 的 使 用 规则 ， 有 着 诸多 和 争论。 大 
&C 体 上 ， 即 便 人 们 认为 使 用 代码 分 享 网 站 很 有 帮助 ， 他 们 也 认识 到 保护 Stack 
Overflow 本 身 的 长 久 性 和 有 效 性 也 是 很 重要 的 。 社 区 的 最 后 决定 是 ,应 当 避 和 免 发 
布 那些 只 提供 链接 而 无 代码 的 提问 和 回答 。 如 果 你 对 这 些 讨论 有 兴趣 的 话 , 请 参 

考 链接 http://meta.stackexchange.com/questions/149890/。 

















我 们 讨论 这 个 问题 的 目的 并 不 是 要 选择 站 在 哪 一 边 ， 只 是 想 提 出 几 个 简单 的 数据 驱动 问题 。 

(1) 在 Stack Overflow 上 ， 人 们 使 用 Pastebin 和 JSFiddle( 以 及 其 他 类 似 的 代码 分 享 网 站 ) 的 频 
率 是 多 少 ? 

(2) 人 们 在 问题 和 答案 中 使 用 代码 分 享 网 站 的 比率 大 吗 ? 

(3) 含有 代码 分 享 网 站 UREL 的 用 户 提 交 ， 是 不 是 同时 包含 程序 源 代 码 ? 如 果 是 的 话 ， 数 量 又 
有 多 少 ? 

我 们 可 以 使 用 以 上 几 个 问题 作为 收集 、 存 储 和 清洗 Stack Overflow 数 据 的 目标 。 即 使 最 后 发 
现 有 的 问题 太 难 回答 或 者 无 法 回答 , 牢 牢记 住 这 个 整体 目标 也 会 对 我 们 的 清洗 工作 有 着 莫大 的 指 
导 作 用 。 并 且 ， 牢 记 这 些 问 题 能 防止 我 们 在 实际 工作 中 偏离 问题 方向 ， 避 免 毫 无 意义 的 工作 。 
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在 本 书 编写 的 时 候 ，Stack Exchange 为 它 旗 下 的 所 有 网 站 产品 都 提供 了 数据 下 载 服 务 ， 其 中 
也 包括 来 自 Stack Overflow 的 数据 ， 任 何人 都 能 够 以 XML 文件 格式 免费 下 载 它 们 。 在 这 一 节 中 ， 
我 们 将 下 载 Stack Overflow 数 据 并 把 这 些 数 据 导 入 到 MySQL 数 据 库 中 。 最 后 ， 我 们 还 会 创建 几 张 
数据 量 较 小 的 表 ， 专 门 供 测试 使 用 。 























9.2.1 下 载 Stack Overflow 数据 

所 有 来 自 Stack Exchange 的 数据 都 可 以 在 互联 网 档案 馆 (Internet Archive). 上 下 载 。 在 本 书 编 
写 的 时 候 ，2014 年 9 月 的 数据 是 当时 最 新 的 数据 。 每 个 Stack Exchange 子 站 都 有 一 个 或 多 个 这 样 的 
数据 转 储 文件 , 并 且 每 个 文件 都 有 它们 自己 对 应 的 详细 页 面 , 访问 地 址 是 https:/archive.org/details/ 


Stackexchange。 


在 众多 的 文件 中 ， 只 有 下 面 八 个 Stack Overflow 文 件 才 是 我 们 需要 的 ， 它 们 按 字母 顺序 排列 。 
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stackoverflow.com-Badges.7z 77.8MB 
stackoverflow.com-Comments.7z 1.8 GB 
stackoverflow.com-PostHistory.7z 9.4 GB 
stackoverflow.com-PostLinks.7z 26.4 MB 
stackoverflow.com-Posts.7z 5.7 GB | 
stackoverflow.com-Tags.7z 508.1 KB | 
stackoverflow.com-Users.7z 100.5 MB | | 
stackoverflow.com-Votes.7z 385.0 MB | 











存放 在 Archive.org 上 的 八 个 Stack Overflow 文 件 


对 于 列表 中 的 每 一 个 文件 ,我们 只 需 在 下 载 链接 上 点 击 鼠 标 右键 ,就 可 以 用 浏览 器 把 文件 下 
载 到 本 地 磁盘 。 








9.2.2 文件 解压 


从 下 载 下 来 的 文件 名 中 可 以 看 出 ， 它 们 都 有 一 个 以 .7z 结 尾 的 文件 扩展 名 。 这 是 一 种 压缩 文 
件 格 式 。 可 以 使 用 7-Zip 软 件 或 是 与 之 兼容 的 软件 包 来 解压 。 在 第 2 章 中 我 们 讨论 过 常见 的 文件 归 
档 格 式 ， 但 7-Zip 并 没有 列 位 其 中 ， 你 的 电脑 上 也 许 也 没有 安装 相关 的 兼容 软件 ， 如 果真 的 是 这 
样 的 话 , 那么 我 们 就 把 这 个 当 作 第 一 个 问题 来 解决 吧 。 你 可 以 先 试 着 双击 文件 看 看 是 否 可 以 打开 
它 ， 但 是 如 果 你 从 未 安装 过 与 .7z 关 联 的 软件 ， 就 需要 安装 一 个 适合 的 解压 程序 了 。 
口 对 于 Windows 系 统 ， 你 可 以 从 7-Zip 网 站 下 载 该 软件 : http:/www.7-zip.org。 
O 对 于 Mac OS X 系 统 ， 你 可 以 下 载 并 安装 Unarchiver， 它 是 一 个 免费 的 工具 ， 下 载 网 站 地 址 

为 http://unarchiver.c3.cx。 

软件 安装 完成 之 后 , 按 顺 序 分 别 解压 每 个 文件 。 解压 出 来 的 文件 会 非常 大 ， 所 以 你 得 先 确保 

磁盘 有 足够 的 空间 来 存放 这 些 文件 。 










































































未 压缩 版 本 几乎 是 压缩 版 本 的 十 倍 。 而 且 在 解压 的 时 候 每 个 文件 都 需要 花费 几 分 


y 在 我 的 操作 系统 上 对 比 压缩 版 本 与 未 压缩 版 本 的 数据 文件 大 小 时 ,结果 显示 
Q 钟 时 间 ， 当 然 ， 时 间 长 度 也 跟 使 用 的 系统 有 关 ， 所 以 请 为 这 一 步 预 留 一 些 时 间 。 


9.2.3 创建 MySQL 数据 表 并 加 载 数据 


现在 拥有 的 这 八 个 .xml 文 件 ， 每 一 个 都 与 即将 要 创建 的 数据 表 对 应 。 要 想 创建 这 些 表 和 数据 
库 ， 可 以 利用 phpMyAdmin 或 其 他 一 些 图 形 工具 通过 鼠标 操作 完成 ， 或 者 是 运行 由 Georgios 
Gousios 编 写 的 SQL 完 成 ,文件 下 载 地 址 为 https://gist.github.com/gousiosg/7600626。 下 载 下 来 的 代 
码 中 只 包含 了 前 六 张 表 的 CREATE 和 LOAD INFILE 语 句 ， 因 为 另外 两 张 表 是 在 这 个 脚本 编写 之 后 
才 追 加 到 转 储 数据 库 文件 的 。 
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要 创建 新 表 的 结构 ， 可 以 从 Terminal 窗 口 或 shell 中 运行 heaq 命 令 来 查看 文件 的 前 几 行内 容 。 
下 面 的 示例 是 从 Terminal 窗 口中 查看 最 小 的 文件 PostLinks.xml: 


head PostLinks.xml 
前 四 行 结果 显示 如 下 : 


<?xml version-"1.0" encoding-"utf-8"?» 

«postlinks» 
«row Id="19" CreationDate-"2010-04-26T02:59:48.130" PostId-"109" 
RelatedPostId-"32412" LinkTypeId-"1" /> 
«row Id="37" CreationDate-"2010-04-26T02:59:48.600" PostId-"1970" 
RelatedPostId-"617600" LinkTypeld-"1" /> 


新 的 数据 表 中 的 每 一 行 数 据 都 与 XML 文件 的 <row> 标 签 对 应 , 标签 中 的 每 个 属性 都 对 应 表 中 
的 一 个 字段 。 我 们 可 以 在 文件 Tagsxml 上 重新 执行 head 命 令 来 验证 数据 表 中 应 该 包含 哪些 字段 。 
对 于 缺少 的 那 两 张 数据 表 ， 可 以 通过 下 面 的 SQL 代码 中 的 CREATE 语 句 和 LOAD 来 创建 : 











c 




















CREATE TABLE post links ( 
Id INT NOT NULL PRIMARY KEY, 
CreationDate DATETIME DEFAULT NULL, 
PostId INT NOT NULL, 
RelatedPostId INT NOT NULL, 
LinkTypeld INT DEFAULT NULL 





ES 


CREATE TABLE tags ( 
Id INT NOT NULL PRIMARY KEY, 
TagName VARCHAR (50) DEFAULT NULL, 
Count INT DEFAULT NULL, 
ExcerptPostId INT DEFAULT NULL, 
WikiPostId INT DEFAULT NULL 











LOAD XML LOCAL INFILE 'PostLinks.xml' 
INTO TABLE post links 
ROWS IDENTIFIED BY '«row»'; 





LOAD XML LOCAL INFILE 'Tags.xml' 
INTO TABLE tags 
ROWS IDENTIFIED BY '«row-'; 








这 里 需要 注意 的 是 ，LOAD XML 语法 得 稍 作 调 整 ， 因 为 只 有 这 样 才 可 以 访问 
存放 在 本 地 磁盘 的 数据 文件 。 如 果 .xml 文 件 存在 本 地 计算 机 而 非 数 据 库 服务 器 ， 
那么 你 只 需要 在 LOAD XML 语句 中 添加 单词 LOCAL 即 可 ， 有 具体 做 法 请 参照 上 面 的 
示例 代码 ， 另 外 你 也 可 以 使 用 完整 的 文件 路 径 。 
关于 MySQL 的 LOAD XML 语法 的 更 多 信息 请 参考 MySQL 在 线 文档 : 
http://dev.mysql.com/doc/refman/5.5/en/load-xml.html ~ 
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现在 我 们 已 经 准备 好 了 八 张 功能 完备 的 数据 表 , 并 且 每 张 都 填 满 了 数据 。 但 是 ,这 些 表 的 数 
据 量 特别 大 。 八 张 表 的 数据 加 起 来 竟然 有 一 亿 九 千 万 条 之 多 。 另 外 还 有 一 件 事 需要 注意 , 那 就 是 
在 数据 清洗 和 数据 分 析 前 的 准备 过 程 中 ， 如 果 我 们 在 任何 一 张大 表 ( 如 posts、comments、 
votes, post history) 中 不 小 心 犯 下 一 个 错误 ， 就 不 得 不 重新 创建 这 些 数据 表 ， 而 这 个 操作 
将 花费 很 长 时 间 。 所 以 , 在 接 下 来 的 一 步 中 , 我 们 将 学 习 如 何 创 建 测试 用 的 数据 表 ， 这 样 就 可 以 
在 程序 或 查询 出 错时 对 损失 加 以 控制 。 


























9.2.4 构建 测试 表 


在 这 一 节 中 , 我 们 会 针对 原始 数据 表 构 建 八 个 规模 较 小 的 数据 表 , 之 后 再 从 原始 表 中 随机 选 
取 一 些 数据 进行 填充 。 


第 一 步 就 是 重新 运行 CREATE 语 句 ， 但 这 次 需要 为 表 名 添加 test_ 前 级 ， 下 面 是 其 中 一 张 表 
的 示例 代码 : 


DROP TABLE IF EXISTS test post links; 
CREATE TABLE test post links ( 
Id INT NOT NULL PRIMARY KEY, 
CreationDate INT, 
PostId INT, 
RelatedPostId INT, 
LinkTypeId INT 












































hs 
除了 表 名 前 面 的 test_ 之 外 ， 这 八 张 测试 表 与 我 们 之 前 做 的 表 没 有 任何 区 别 。 


接 下 来 , 我 们 需要 把 数据 填充 到 新 创建 的 测试 表 中 。 我 们 可 以 从 原始 表 中 选择 前 1000 行 数据 
放 到 测试 表 中 。 但 是 ， 这 人 么 做 会 有 一 个 缺点 ， 即 由 于 原始 数据 是 按照 被 插入 Stack Overflow 数 据 
库 的 顺序 排列 的 , 结果 就 是 这 1000 条 样本 数据 在 日 期 和 时 间 上 不 会 有 太 大 不 同 。 而 我 们 实际 希望 
的 样本 数据 应 该 是 随机 发 布 的 。 那 怎么 才能 随机 选取 这 些 数 据 呢 ? 在 此 之 前 , 我 们 从 未 解决 过 类 
似 的 问题 ， 所 以 ， 这 将 是 我 们 要 在 数据 科学 晚餐 聚会 上 讨论 的 又 一 新 话题 。 


随机 抽取 行 数据 的 方法 不 止 一 个 , 但 它们 的 效率 还 是 有 分 别 的 。 在 这 个 项 目 里 , 效率 还 是 比 
较 重要 的 ， 因 为 我 们 要 处 理 的 数据 非常 庞大 。 本 来 是 有 一 种 随机 抽取 数据 的 方法 的 ， 那 就 是 利用 
数字 类 型 的 主键 字段 Ia, 但 可 惜 的 是 这 些 主键 数字 并 不 连续 。 行 数据 之 间 有 许多 缺口 , 例如 在 表 
post_links 中 ，Iq 字 段 的 前 几 个 值 分 别 是 19、37、42 和 48。 

实际 上 ， 这 些 数据 缺口 会 对 我 们 的 随机 抽取 操作 造成 一 定 的 影响 ， 请 看 下 面 的 操作 步骤 。 

(1) 构建 PHP 脚 本 并 运行 下 面 的 查询 ， 找 出 表 中 最 小 和 最 大 的 Id 值 : 


SELECT min(Id) FROM post links; 
SELECT max(Id) FROM post links; 
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Q) 然后 在 同一 个 脚本 中 ， 在 最 小 值 和 最 大 值 之 间 生 成 随机 数 ， 并 使 用 下 面 的 语句 找 出 随机 
数 对 应 的 行 数据 : 


SELECT * FROM post links WHERE Id = [random value]; 
(3) 重复 上 面 的 第 二 步 ， 根 据 你 自己 的 需要 添加 更 多 的 数据 。 


但 不 走运 的 是 , 在 处 理 Stack Overflow 数 据 表 时 产生 了 许多 失败 的 查询 ，post_1inks 表 就 是 
个 例子 , 这 是 因为 字段 Ia 里 有 许多 数字 缺口。 举 个 例子 来 说 , 如 果 上 面 例子 中 的 第 二 步 生成 的 随 
机 值 是 38 会 发 生 些 什么 呢 ? post_links 表 中 没有 Id 为 38 的 字段 。 这 意味 着 我 们 需要 及 时 发 现 这 
个 错误 ， 并 改换 另 一 个 新 的 随机 值 。 









































每 当 这 个 时 候 ， o S 通常 会 建议 
在 字段 Ia 上 使 用 MySQL 的 ORDER BY rand() ， 然 后 再 执行 LIMIT 命 令 来 限制 我 
们 需要 的 数据 条 数 。 但 实际 上 这 个 方案 人 即使 在 排序 时 使 用 的 是 一 
TL 个 索引 字段 ，ORDER BY rand() 还 是 需要 在 每 一 行 记录 上 执行 一 次 ， 只 有 这 样 
S 才能 为 每 一 行 记录 赋予 一 个 新 的 随机 值 。 所 以 ， 在 像 Stack Overflow 这 样 的 大 型 
数据 库 上 ， 这 是 行 不 通 的 。 一 次 ORDER BY rand() 查 询 会 花费 很 长 时 间 才能 执 
行 完 毕 。ORDER BY rand() 对 于 小 规模 的 数据 表 还 是 可 以 接受 的 ， 但 不 太 适 用 
于 我 们 这 个 项 目 。 



































下 面 的 PHP 脚 本 程序 才 是 最 终 的 随机 数据 抽取 解决 方案 , 它 向 我 们 演示 了 如 何 为 八 张 测试 用 
的 数据 表 分 别 填充 1000 条 数据 。 并 且 在 随机 选取 数据 的 时 候 都 尽 可 能 地 做 得 恰到好处 ,避免 在 这 
个 简单 的 问题 上 过 度 设计 : 











«?php //randomizer.php 
// 每 张 测试 用 的 数据 表 中 应 该 存放 的 数据 条 数 为 多 少 ? 
$table target size = 1000; 


// 连接 到 数据 库 ， 设 置 查询 语 向， 运行 查询 语 向 

$dbc = mysqli. connect('localhost','username',' 'password','stackoverflow') 
or die('Error connecting to database!' . mysqli error()); 

$dbc-»set charset("utf8"); 


$tables = array("badges", 
"comments" 
"posts", 
"post history", 
"post links", 
"tags", 
"users", 
"votes"); 


foreach ($tables as $table) 
{ 
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echo "\n=== Now working on $table ---Wn"; 
$select table info = "SELECT count (Id) as c, min(Id) as mn, 
max(Id) as mx FROM $table"; 
$table info = mysqdli query($dbc, $select table info); 
$table stuff = mysqli. fetch object($table info); 
$table count = S$table stuff-»c; 
$table min = $table stuff-»mn; 
$table max = $table stuff-»mx; 


// 建立 一 个 循环 结构 随机 抓 取 一 些 数据 并 插入 到 新 的 数据 表 中 
$i-0; 
while($i < $table target size) 
{ 
$r = rand($table_min, $table max); 
echo "\nIteration $i: $r"; 
$insert rowx = "INSERT IGNORE INTO test $table (SELECT * 
FROM $table WHERE Id = $r)" 
$current row = mysqli query($dbc, $insert rowx); 


$select current count = "SELECT count(*) as rc FROM 

test Stable"; 

$current count- mysqli query($dbc, $select current count); 
$row count = mysqgli fetch object($current count)-»rc; 

$i - $row count; 


} 

在 运行 完 这 段 代 码 之 后 ， 我 们 可 以 从 结果 中 看 出 ， 这 八 张 表 中 的 数据 才 是 我 们 需要 的 。 有 
了 这 些小 规模 的 数据 表 ， 我 们 的 清洗 练习 可 以 进行 得 更 顺利 ， 犯 错 成 本 更 低 。 如 果 在 实际 使 用 
时 发 现 需 要 更 多 的 随机 数据 ， 只 要 加 大 变量 Stable_target_size 的 值 并 重新 运行 一 次 脚本 就 
可 以 了 。 


构建 测试 表 是 一 种 好 习惯 ， 但 前 提 是 你 知道 应 该 怎么 以 简单 有 效 的 方法 来 创建 它们 。 
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还 记得 我 们 的 任务 目标 吧 ， 先 分 析 问 题 、 答 案 和 用 户 评论 中 某 些 URL 的 引用 频率 ,这 当然 要 
从 Stack Overflow 的 post 表 和 comments 表 开始 才 合理 。 但 是 , 由 于 这 些 表 的 数据 量 比较 大 , 所 以 
ee D Rep ents。 如 果 稍 后 我 们 对 查询 结果 
有 了 信心 ， 那 就 可 以 在 大 表 上 重新 运行 这 些 命令 。 


清洗 任务 与 第 7 章 的 URL 提 取 非 常 相似 。 但 是 ， 这 个 项 目 还 有 它 自 己 的 独特 规则 。 


口 由 于 用 户 提 交 和 用 户 评论 属于 不 同 的 实体 ， 所 以 我 们 应 该 为 来 自用 户 提 交 的 URL ( 包括 
问题 和 答案 ) 和 来 自用 户 评论 的 URL 分 别 创建 存储 表 。 
口 每 个 问题 、 答 案 或 用 户 评 论 都 有 可 能 包含 多 个 URL 信 息 。 我 们 应 该 把 这 些 URL 全 部 保存 
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下 来 ， 并 为 URL 的 来 源 做 好 跟踪 记录 。 
口 每 个 问题 、 答 案 或 用 户 评论 都 有 可 能 包含 多 份 经 过 格式 化 的 源 代码 。Stack Overflow 提 交 
内 容 里 的 程序 源 代码 都 是 采用 <code> 标 签单 独 隔 离 出 来 的 。 从 用 户 提交 的 内 容 中 分 离 出 
程序 源 代 码 ， 可 以 帮助 我 们 回答 有 关 代码 分 享 URL 和 程序 源 代 码 共存 的 问题 。 如 果 有 的 
话 ， 一 个 链接 中 通常 有 多 少 代码 呢 ? 















































从 技术 上 讲 ， 所 有 的 用 户 提交 在 创建 时 都 可 以 去 除 <coqe> 标 签 ， 但 通常 有 
VS 人 会 快速 修正 提交 内 容 ， 引 入 这 些 有 用 的 标签 ， 并且 会 因此 获得 Stack Overflow 用 
户 点 数 。 为 了 简化 目标 ， 我 们 假定 这 个 项 目 中 的 所 有 代码 都 放 在 <codqe> 标 签 中 。 


口 根据 Stack Overflow 数 据 库 的 文档 ( 地 址 为 http://meta.stackexchange.com/questions/2677/ ), 
实际 上 有 八 种 类 型 的 用 户 提交 ， 问 题 和 答案 只 是 其 中 的 两 种 。 所 以 ， 在 查询 的 时 候 ， 我 
们 需要 分 别 使 用 postTypeIidq=1 和 postTypeId=2 把 用 户 提交 类 型 限定 在 问题 和 答案 这 
两 种 类 型 中 。 

口 为 了 确保 只 从 那些 与 问题 和 答案 有 关 的 用 户 评论 中 提取 UREL， 暂 不 考虑 其 他 类 型 的 用 户 
提交 ， 我 们 需要 结合 用 户 提 交 表 做 一 个 联合 查询 ， 把 结果 限制 在 postTypeId=1 或 
postTypeId=2 范 围 之 内 。 











9.3.1 创建 新 的 数据 表 
利用 下 面 的 SQL 语 句 ， 我 们 可 以 创建 用 于 存放 URL 的 数据 表 : 


CREATE TABLE clean comments urls ( 
id INT NOT NULL AUTO INCREMENT PRIMARY KEY, 
commentId INT NOT NULL, 
url VARCHAR(255) NOT NULL 
) ENGINE-MyISAM DEFAULT CHARSET-utf8; 


CREATE TABLE IF NOT EXISTS clean posts urls ( 
id INT NOT NULL AUTO INCREMENT PRIMARY KEY, 
postId INT NOT NULL, 
url VARCHAR(255) NOT NULL 

) ENGINE-MyISAM DEFAULT CHARSET-utf8; 


另外 ， 我 们 还 需要 创建 一 张 新 的 数据 表 来 存放 从 用 户 提交 内 容 中 删除 的 程序 代码 : 


CREATE TABLE clean, posts. code ( 
id INT NOT NULL AUTO INCREMENT PRIMARY KEY, 
postId INT NOT NULL, 
code TEXT NOT NULL 
) ENGINE-MyISAM DEFAULT CHARSET-utf8; 


到 此 为 止 我 们 已 经 创建 了 三 张 数据 表 ， 其 中 有 两 张 用 来 存放 清洗 后 的 URL， 另 外 一 张 存放 
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清洗 后 的 程序 源 代码 。 在 下 一 个 小 节 中 ， 我 们 将 把 抽取 出 来 的 URL 和 源 代码 插入 到 这 些 新 的 数 
据 表 中 。 


9.3.20 ”提取 URL 并 填写 新 数据 表 
我 们 可 以 修改 在 第 7 章 中 编写 的 脚本 ， 用 它 抽取 Stack Overflow 场 景 下 的 URL， 代 码 如 下 : 


«?php // urlExtractor.php 

// 连接 到 数据 库 

$dbc = mysqdli connect('localhost', 'username', 'password', 'stackoverflow') 
or die('Error connecting to database!' . mysqdli error()); 

$dbc-»set charset("utf8"); 


// 提取 与 提交 信息 有 关 的 文本 数据 
// postTypeId-1 (问题 ) 
// X&postTypeld-2 (XX) 
$post query - "SELECT Id, Body 
FROM test posts 
WHERE postTypeId-1 OR postTypeId-2"; 


$comment query = "SELECT tc.Id, tc.Text 
FROM test comments tc 
INNER JOIN posts p ON tc.postId - p.Id 
WHERE p.postTypeId-1 OR p.postTypeId-2"; 


$post result = mysqli query($dbc, $post query); 
// 如 果 查 询 失 败 则 终止 处 理 
if (!$post result) 
die ("post SELECT failed! [$post query]" . mysqli error()); 


// 提取 URL 信 息 
$urls = array(); 
$pattern = '#\b(([\w]+://?lwww[.]) [^\s()<>]+(?:\([\w\d]+\) I ([^[:punct:]\s]I/)))#'; 


while($row = mysqli_fetch_array ($post_result)) 
{ 


echo "\nworking on post: " . $row["id"]; 
if (preg match all( 

$pattern, 

$row["Body"], 

Surls 


foreach ($urls[0] as $url) 
{ 
$url = mysqli escape string($dbc, $url); 


echo "Xn----url: ".$url; 
$post insert - "INSERT INTO clean posts urls (id, postid, url) 
VALUES (NULL," . $row["Id"] . ",'$url')"; 


echo "WAn$post insert"; 
$post insert result = mysqli. query ($dbc, 
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$post insert); 


} 


$comment_result = 
// 如 果 查 询 失 败 则 终止 处 理 
if (!$comment result) 
die 
mysqli error()); 


mysqli. query ($dbc, 


("comment SELECT failed! 


$comment query); 


[$comment, query]" . 


while($row = mysqli fetch array ($comment result)) 


t 
echo 
if (preg match all( 
$pattern, 
$row["Text"] 
Surlg 
) ) 
{ 
foreach ($urls[0] 
{ 
echo "\n----url: 
$comment insert 
(id, commentid, 
VALUES (NULL 
echo 


$comment insert) 


} 


?» 


"Anworking on comment: " 


" 
' . 


; 


. $row["id"]; 


as $url) 


Surl; 
INSERT INTO clean comments, urls 


url) 


Srow[I"Id"]- »-5,'$url')'; 


"An$comment insert"; 
$comment insert result = 


mysqli. query ($dbc, 


现在 我 们 已 经 完成 了 数据 表 clean_post_urls 和 clean_comment_urls 的 填充 。 在 我 的 测 
试 表 中 ， 跑 完 上 面 的 脚本 之 后 只 生成 了 大 约 100 条 用 户 评论 URL 和 700 条 用 户 提 交 URL。 当 然 , 这 
对 于 正式 开始 之 前 的 测试 来 说 已 经 足够 了 。 


9.3.8 提取 代码 并 填写 新 表 














要 想 提取 嵌 套 在 <code> 标 签 内 的 文本 数据 并 填写 新 表 clean_posts_code， 可 以 运行 下 面 
的 脚本 程序 。 这 段 程序 与 URL 提 取 比 较 相 似 , 但 不 需要 搜索 用 户 评 论 内 容 ， 因 为 用 户 评论 中 没有 





«code > 标签 修饰 的 代码 o 
在 我 的 随机 测试 表 中 ， 第 一 条 s 

















EL 
E 





ECT 语 句 从 总 行 数 为 1000 的 数据 表 test_post 中 筛选 出 约 





800 行 数据 。 但 是 ， 由 于 每 条 用 户 提交 数据 都 可 能 包含 多 个 程序 代码 片段 ， 所 以 最 终 实际 表 中 的 
记录 超过 了 2000 条 。 下 面 就 是 从 <code> 标 签 中 提取 购 套 代码 的 PHP 肢 本: 




















160 第 9 章 Stack Overflow 项 目 





«?php // codeExtractor.php 

// 连接 到 数据 库 

$dbc = mysqdli connect('localhost', 'username', 'password', 'stackoverflow') 
or die('Error connecting to database!' . mysqli error()); 

$dbc-»set charset("utf8"); 


// 提取 与 提交 信息 有 关 的 文本 数据 

// postTypeId=1 (问题 ) 

// X&postTypeld-2 (XX) 

$code query - "SELECT Id, Body 
FROM test posts 
WHERE postTypeId-1 OR postTypeIld-2 
AND Body LIKE '$«code»$2'"; 


$code result = mysqgli query($dbc, $code query); 
// 查询 失败 则 终止 处 理 
if (!$code result) 
die ("SELECT failed! [$code query]" . mysqli error()); 


// 从 提交 数据 中 提取 代码 片段 
$codesnippets = array(); 
$pattern = '/«code»(.*?)«M/code»/'; 


while($row = mysqli_fetch array ($code_result)) 
{ 
echo "\nworking on post: " . $row["Id"]; 
if (preg match all( 
$pattern, 
$row["Body"], 
$codesnippets 
) ) 
$i-0; 
foreach ($codesnippets[0] as $code) 
{ 
$code = mysqli escape string($dbc, $code); 
$code insert - "INSERT INTO clean posts code (id, postid, code) 
VALUES (NULL," . $row["Id"] . ",'$code')"; 
$code insert result = mysqli query($dbc, $code insert); 
if (!$code insert result) 
die ("INSERT failed! [$code insert]" 
mysqli error()); 
$i++; 
} 
if ($i>0) 


echo "\n Found Si snippets"; 





现在 我 们 已 经 将 每 条 用 户 提 交 里 包含 的 程序 源 代码 提取 出 来 了 , 并 且 也 按照 预期 的 设计 把 它 
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们 存放 到 数据 表 c lean_post_code 里 。 


9.4 第 四 步 : 数据 分 析 
在 这 一 节 ， 我 们 要 编写 一 些 代 码 来 回答 本 章 开 头 所 提出 的 三 个 问题 。 具 体 是 要 找 出 ; 


a 在 用 户 提交 和 用 户 评论 中 ， 使 用 到 的 不 同类 型 代码 分 享 URL 的 个 数 ; 
口 代码 分 享 URL 在 问题 和 答案 中 的 数量 分 别 有 和 多 少 ; 
口 在 所 有 使 用 了 代码 分 享 URL 的 用 户 提交 中 ，<code> 的 使 用 比率 。 




















9.4.4 哪些 代码 分 享 网 站 最 为 流行 


要 想 回答 第 一 个 问题 , 我 们 需要 生成 一 份 JSON 格 式 的 数据 , 其 中 应 当 包 含 代码 分 享 网 站 URL 
及 其 使 用 次 数 , 这些 信 息 分 别 来 自 数据 表 clean_posts_urls 和 clean_comments_urls。 通过 
这 个 简单 的 分 析 ， 我 们 可 以 找 出 在 Stack Overflow 数 据 文 件 中 有 哪些 代码 分 享 网 站 比较 流行 。 在 
下 面 的 PHP 脚 本 中 ， 程 序 会 根据 我 们 在 数组 变量 spastebins 中 预先 列 出 的 代码 分 享 网 站 ， 从 用 
户 提交 和 用 户 评论 的 内 容 中 统计 出 与 之 匹配 的 数据 个 数 。 由 于 脚本 使 用 的 是 测试 表 , 所 以 实际 产 
生 的 数字 会 远 远 小 于 在 真实 表 中 运行 出 来 的 结果 : 

















«?php // ql.php 
// 连接 到 数据 库 


$dbc = mysqli_connect ('localhost', 'username', 'password', 
'stackoverflow') 
or die('Error connecting to database!' . mysqli_error()); 


$dbc-»set charset("utf8"); 


// 下 面 的 URL 地 址 是 我 们 需要 查找 与 统计 的 内 容 
$pastebins = array("pastebin", 
"jsfiddle", 
"gists", 
"jsbin", 
"dpaste", 
"pastie"); 
$pastebin counts = array(); 





foreach ($pastebins as $pastebin) 
{ 
$url query = "SELECT count (id) AS cp, 
(SELECT count (id) 
FROM clean, comments urls 
WHERE url LIKE '$$pastebin$') AS cc 
FROM clean, posts urls 
WHERE url LIKE '$$pastebin?'"; 
$query = mysqli query($dbc, $url query); 
if (!$query) 
die ("SELECT failed! [$url query]" . mysqli_ error()); 
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$result mysqli_fetch_object ($query); 
$countp $result-»cp; 

$countc = $result-»cc; 

$sum = $countp + $countc; 


Wo 


array. push($pastebin counts, array('bin' => $pastebin, 
'count' => $sum)); 
j 
// 在 最 终 的 列表 转换 成 json 格 式 之 前 ， 需 要 对 数据 进行 排序 处 理 
// 按照 数据 条 数 进行 排序 ， 由 高 到 低 
foreach ($pastebin counts as $key => $row) 
{ 
S$first[$key] 
$second[$key] 


$row['bin']; 
$row['count']; 


uo 


} 


array multisort($second, SORT DESC, Spastebin counts); 
echo json, encode($pastebin counts); 
?» 


从 脚本 输出 的 结果 中 ， 我 们 可 以 找到 利用 测试 表 得 出 的 JSON 数 据 内 容 。 下 面 是 来 自我 的 测 
试 数据 表 的 统计 信息 : 
[("bin":"jsfiddle","count":44),("bin":"jsbin","count":4),("bin":"paste 


bin","count":3),("bin":"dpaste","count":0),("bin":"gists","count":0),( 
"bin":"pastie","count":0)] 




















| zl 你 的 实际 运行 结果 值 可 能 会 有 所 不 同 ， 这 是 因为 我 们 随机 选择 的 数据 是 不 
~ 同 的 。 


在 9.5 节 中 ， 我 们 会 使 用 这 份 JSON 数 据 构建 一 个 条 形 图 表 。 但 在 此 之 前 ， 还 是 让 我 们 先 回 答 
之 前 提出 的 另外 两 个 问题 。 





9.4.2 ”问题 和 答案 中 的 代码 分 享 网 站 都 有 哪些 


第 二 个 问题 是 ,问题 和 答案 中 ,代码 分 享 网 站 的 使 用 比率 哪个 更 高 。 要 解答 这 个 问题 ,我们 
需要 运行 一 系列 SQL 查询 。 第 一 个 查询 要 找 出 的 是 数据 表 clean_posts_urls 中 每 种 类 型 的 用 户 
提交 的 个 数 ， 包 括 问题 和 答案 : 

SELECT tp.postTypeId, COUNT (cpu.id) 

FROM test posts tp 


INNER JOIN clean posts urls cpu ON tp.Id - cpu.postid 
GROUP BY 1; 


从 我 的 随机 测试 表 得 出 的 结果 是 ， 一 共有 237 个 问题 和 440 个 答案 。 
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postTypeld COUNT(cpu.id) 
1 237 
2 440 











在 phpMyAdmin 中 显示 的 问题 URL 个 数 和 答案 URL 个 数 


现在 , 我 们 需要 知道 的 是 : 在 问题 和 答案 共同 组 成 的 677 个 URL 中 , 每 种 类 型 的 代码 分 享 URL 
对 应 的 数据 量 到 底 有 多 少 ?” 这 个 问题 可 以 通过 下 面 的 SQL 语句 找到 答案 : 





SELECT tp.postTypelId, count(cpu.id) 

FROM test posts tp 

INNER JOIN clean, posts urls cpu ON tp.Id = cpu.postId 
WHERE cpu.url LIKE '$jsfiddle$' 

OR cpu.url LIKE '$jsbin$' 

OR cpu.url LIKE '$pastebin$' 

OR cpu.url LIKE '$dpaste?' 

OR cpu.url LIKE '$gist$£' 

OR cpu.url LIKE '$pastie£' 

GROUP BY 1; 


下 面 的 表格 显示 的 就 是 查询 结果 。 引 用 代码 分 享 网 站 的 问题 有 18 个 , 引用 代码 分 享 网 站 的 答 
案 有 24 个 。 











postTypeld count(cpu.id) 
1 18 
2 24 

















在 phpMyAdmin 中 ， 问 题 和 答案 中 分 别 包含 的 URL 引 用 个 数 


有 一 点 需要 记 住 ， 上 面 的 查询 会 对 每 个 出 现 的 URL 都 做 一 次 计算 。 所 以 ， 如 果 某 个 postIa 
引用 了 五 个 URL, 那 最 后 的 统计 结果 得 经 过 五 次 计算 才能 得 出 。 如 果 想 要 知道 有 多 少 用 户 提交 一 
次 或 多 次 引用 了 一 个 URL ,我 们 需要 把 上 面 的 两 个 查询 都 做 一 下 调整 。 下 面 是 调整 后 的 查询 语句 ， 
用 来 统计 URL 表 里 非 重复 用 户 提 交 的 个 数 : 

SELECT tp.postTypeId, COUNT(DISTINCT cpu.postId) 

FROM test posts tp 


INNER JOIN clean, posts urls cpu ON tp.Id - cpu.postId 
GROUP BY 1; 


下 面 的 截图 显示 了 包含 URL 的 问题 和 答案 的 个 数 。 
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postTypeld COUNT(DISTINCT cpu.postid) 
1 B1 
2 222 











在 phpMyAdmin 中 显示 的 包含 URL 的 问题 和 答案 








利用 下 面 的 查询 语句 ， 我 们 可 以 计算 出 URL 表 中 包含 某 个 代码 分 享 网 站 的 用 户 提 交 个 数 : 


SELECT 





OR cpu. 
OR cpu. 
OR cpu. 
OR cpu. 
OR cpu. 





tp.postTypeId, count(DISTINCT cpu.postId) 
FROM test posts tp 

INNER JOIN clean, posts urls cpu ON tp.Id = cpu.postId 
WHERE cpu.url LIKE '$jsfiddle$' 


url 
url 
url 
url 
url 


LIKE '$jsbin$' 
LIKE '$pastebin$' 
LIKE '$dpaste$£' 
LIKE '$gist$' 
LIKE '$pastie$' 





GROUP BY 1; 


查询 结果 如 下 ,与 我 们 预期 的 一 样 ， 数 量变 少 了 。 在 测试 数据 集中 ,包含 代码 分 享 URL 的 问 
题 有 11 个 ， 答 案 有 16 个 。 合 算 起 来 ， 一 共有 37 条 用 户 提交 至 少 引 用 了 代码 分 享 URIL 一 次 。 














postTypeld count(distinct cpu.postid) 
1 11 
2 16 











在 phpMyAdmin 中 ， 包 含 代 码 分 享 URL 的 问题 和 答案 统计 数量 








虽然 从 测试 结果 中 可 以 看 出 , 人 们 在 答案 里 使 用 的 代码 分 享 URL 数 量 要 比 问题 中 多 , 但 我 们 





7 


还 是 需要 使 用 真实 数据 表 中 全 部 的 问题 和 答案 重新 再 做 一 次 比较 。 另 外 , 我 们 还 应 该 以 百分比 的 




















形式 分 别 计算 出 问题 和 答案 所 对 应 的 比例 。 如 果 把 总 数 纳入 考虑 范围 内 容 ， 我 们 就 可 以 这 样 说 : 
“如 果 只 考虑 那些 包含 URL 的 问题 和 答案 ， 在 81 条 问题 中 有 11 条 使 用 了 代码 分 享 URL (13.6% ), 


在 222 条 答案 中 有 16 条 使 用 了 代码 分 享 URL (7.2% )。” 与 此 类 似 ， 在 你 的 实际 结果 中 ， 问 题 中 使 











用 的 代码 分 享 网 站 的 比例 几乎 是 答案 的 两 倍 。 
不 论 是 在 哪个 数据 分 析 项 目 中 ， 到 了 这 个 时 候 你 都 应 该 准备 好 更 多 的 问题 ， 例 如 : 











口 随 着 时 间 的 变化 ， 问 题 和 答案 中 的 代码 分 享 URL 的 使 用 率 会 如 何 变 化 ? 
口 在 受 欢 迎 程度 的 投票 上 ， 包 含 代码 分 享 URL 的 问题 表现 如 何 ? 
口 使 用 代码 分 享 URL 提 问 的 用 户 都 有 什么 样 的 特点 ? 











由 于 这 本 书 是 谈论 数据 清洗 的 , 而 且 到 现在 为 止 还 没有 可 用 的 可 视 化 数据 ,， 所 以 我 先 不 回答 





这 些 外 围 问 


题 


o 另外， 对 于 之 前 提出 的 三 个 问题 ， 还 剩 下 最 后 一 个 要 回答 ,之 后 我 们 再 考虑 怎么 
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对 数据 进行 可 视 化 操作 。 


9.4.8 ”提交 内 容 会 同时 包含 代码 分 享 URL 和 程序 源 代码 吗 


要 回答 第 三 个 问题 ， 需 要 比较 Stack Overflow 上 的 问题 和 答案 中 包含 的 代码 数量 ， 特 别 要 关 
注 那 些 包 含 由 <code> 标 签 分 隔 的 源 代码 的 提交 。 在 9.3 节 中 ， 我 们 已 经 从 测试 表 中 提取 了 用 户 提 
交 里 的 代码 ,并 创建 了 一 张 新 表 存放 这 些 代码 片段 。 现在, 通过 下 面 的 查询 语句 可 以 计算 出 包含 
程序 源 代 码 的 用 户 提交 数量 : 


SELECT count(DISTINCT postid) 
FROM clean, posts. code; 


在 我 的 测试 数据 集中 , 查询 结果 显示 在 1000 条 测试 用 的 用 户 提 交 中 , 包含 程序 源 代码 的 用 户 
提交 数量 为 664 个 。 换 一 种 表述 方式 就 是 : 在 1000 条 用 户 提交 中 ， 有 664 条 记录 至 少 包 含 一 个 
<code> 标 签 。 


想 要 计算 出 有 多 少 条 用 户 提 交 同 时 包含 程序 源 代码 和 代码 分 享 URL, 可 以 使 用 下 面 的 SQL 查 
询 语句 : 


SELECT count (DISTINCT cpc.postid) 
FROM clean, posts. code cpc 

INNER JOIN clean, posts urls cpu 
ON cpu.postId - cpc.postId; 


我 的 测试 结果 显示 一 共有 175 条 这 样 的 数据 。 这 意味 着 在 1000 条 用 户 提 交 中 , 有 17.5% 同 时 包 
含 程序 源 代码 和 URL。 


现在 , 为 了 找 出 同时 包含 程序 源 代码 和 代码 分 享 URL 的 用 户 提交 个 数 , 我 们 可 以 使 用 下 面 的 
SQL 查询 语句 进一步 缩小 结果 范围 : 


SELECT count (DISTINCT cpc.postid) 
FROM clean, posts. code cpc 

INNER JOIN clean, posts urls cpu 
ON cpu.postId = cpc.postId 

WHERE cpu.url LIKE '$jsfiddle$' 
OR cpu.url LIKE '$jsbin$' 

OR cpu.url LIKE '$pastebin$' 

OR cpu.url LIKE '$dpaste?' 

OR cpu.url LIKE '$gist$£' 

OR cpu.url LIKE '$pastie$'; 


从 结果 数据 中 我 们 可 以 看 出 ， 其 实 只 有 25 条 用 户 提 交 既 包含 程序 源 代码 又 包含 代码 分 享 
URL. 而 且 从 第 二 个 问题 的 管 案 中 我 们 已 经 知道 , 一 共有 37 个 不 重复 的 用 户 提 交 ( 包括 问题 和 答 
R) 至 少 使 用 过 一 次 这 种 代码 分 享 网 站 。 所 以 25/37 就 是 大 约 68%。 如 果 在 更 大 的 数据 集 上 运行 这 
些 查 询 ， 在 看 到 结果 那 一 刻 ， 你 会 越发 觉得 有 成 就 感 。 
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接 下 来 要 做 的 是 对 前 面 的 结果 数据 做 一 些 简单 的 数据 可 视 化 处 理 , 只 有 这 样 我 们 才 算 是 真正 
地 完成 了 数据 科学 的 六 步 过 程 。 





9.5 第 五 步 : 数据 可 视 化 


数据 可 视 化 就 好 比 晚餐 聚会 中 的 饭 后 甜点 。 每 个 人 都 喜欢 内 容 丰 富 的 图 形 化 展现 , 因为 它们 
非常 直观 。 但 这 本 书 的 重点 是 数据 清洗 ， 而 非 数 据 分 析 和 可 视 化 ， 所 以 这 里 我 们 要 实现 的 可 视 化 
图 表 是 很 简单 的 。 在 后 面 的 程序 代码 中 ， 我 们 将 使 用 JavaScript 的 可 视 化 库 D3 来 以 图 表 的 形式 显 
示 第 一 个 问题 的 结果 数据 。 这 个 可 视 化 实现 比 我 们 在 第 4 章 使 用 D3 实现 的 可 视 化 要 简单 得 多 。 我 
们 可 以 试 着 回想 一 下 当时 构建 的 网 络 关系 图 的 复杂 程度 , 而 这 次 一 个 简 简 单单 的 条 形 图 就 足够 表 
现 我 们 需要 的 标签 和 统计 数据 了 。 


下 面 就 是 可 视 化 实现 需要 使 用 的 HTML 和 JavaScript/D3 代 码 , 这 份 代码 是 对 Mike Bostock 编 写 
的 Letx Build a Bar Graph 教 程 的 扩展 ， 教 程 地 址 为 http://bl.ocks.org/mbostock/3885304。 其 中 一 个 
扩展 点 就 是 读 取 先前 在 ql.php 脚 本 中 生成 的 JSON 文 件 。 由 于 之 前 的 JSON 文 件 格 式 非 常 清晰 ， 而 
且 已 经 经 过 由 高 到 低 的 排序 处 理 ， 所 以 条 形 图 的 构建 也 变 得 轻松 了 : 


<!DOCTYPE html> 

<meta charset="utf-8"> 

«1-- 

this code is modeled on mbostock's 

"Let's Make a Bar Chart" D3 tutorial 
available at http://bl.ocks.org/mbostock/3885304 
My modifications: 

* formatting for space 

colors 

y axis labels 

changed variable names to match our data 
loads data via JSON rather than .tsv file 
GE 



















































































<style> 
.bar (fill: lightgrey; } 
.bar:hover (fill: lightblue;) 
.axis (font: 10px sans-serif;) 
.axis path, .axis line ( 
fill: none; 
Stroke: #000; 
shape-rendering: crispEdges; 
} 
.x.axis path (display: none;) 
</style> 
<body> 
«script src-"d3.min.js"»«/script» 
«script» 


var margin = (top: 20, right: 20, bottom: 30, left: 40}, 
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width - 960 - margin.left - margin.right, 
height - 500 - margin.top - margin.bottom; 


var x - d3.scale.ordinal() 
.rangeRoundBands([0, width], .1); 


var y - d3.scale.linear() 
.range([height, 0]); 


d3.svg.axis() 
x) 
("bottom"); 


var xAxis - 
.Scale 
.orient 


d3.svg.axis() 
y) 
("left") ; 


var yAxis - 
.scale( 
.orient 


var svg = d3.select("body").append("svg") 


.attr("width", width + margin.left + margin.right) 
.attr("height", height + margin.top + margin.Lbottom) 
.append("g") 

.attr("transform", "translate(" + margin.left + "," + margin.top + ")"); 
d3.json("bincounter.php", function(error, json) 
t 

data - json; 

draw (data); 
s 


function draw(data) 

{ 
x.domain(data.map(function(d) ( return d.bin; ))); 
y.domain([0, d3.max(data, function(d) ( return d.count; })]); 


Ssvg.append("g") 
.üttr("clags", "x axis") 
.attr("transform", "translate(0," + height + ")") 
.Call(xAxis); 


svg.append("g") 


.attr("class", "y axis") 
.Call (yAxis) 

.append ("text") 
.attr("transform", "rotate(-90)") 
.attr(tyt.. 6) 
tt s." ren") 
.Style("text-anchor", "end") 


.text("Frequency"); 





Svg.selectAll(".bar") 
.data(data) 
.enter().append("rect") 
.attr("class", "bar") 
.attr("x", function(d) ( return x(d.bin) ; )) 
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.attr("width", x.rangeBand()) 

.attr("y", function(d) ( return y(d.count); J) 

.attr("height", function(d) ( return height - y(d.count); )); 
} 


</script> 
</body> 
</html> 


我 们 可 以 把 这 段 内 容 保存 为 名 为 qlcharthtml 的 文件 ， 然 后 在 浏览 器 中 打开 。 代 码 执行 过 程 
中 会 调用 脚本 ql.php ， 并 利用 脚本 生成 的 JSON 文 件 在 D3 中 构建 成 图 表 ， 下 面 是 图 表 左 侧 部 分 的 
截图 。 
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D3 可 视 化 图 表 的 JSON 格 式 URL 统 计 信 息 
从 条 形 图 表 中 可 以 看 出 ， 指 向 JSFiddle 的 URL 是 最 多 的 ， 至 少 在 我 的 测试 数据 集中 是 这 样 。 
虽然 从 ql.php 生 成 的 JSON 数 据 中 就 已 经 看 出 这 个 结果 , 但 图 表 看 起 来 还 是 更 方便 一 些 。 在 下 一 节 
中 ， 我 们 将 对 所 有 结果 和 操作 做 一 个 总 结 ， 并 继续 讨论 这 个 项 目的 下 一 个 目标 。 
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9.6 第 六 步 : 问题 解析 
根据 9.4 和 9.5 节 中 的 查询 结果 和 可 视 化 图 表 , 我 们 现在 可 以 回答 项 目 最 初 提出 的 三 个 问题 了 。 


























第 一 个 问题 是 要 找 出 用 户 提交 和 用 户 评论 中 使 用 到 的 代码 分 享 网 站 数量 的 不 同 。 从 脚本 


ql.php 和 数据 可 视 化 条 形 























图 可 以 得 知 ，JSFiddle 是 六 种 代码 分 享 URL 里 使 用 最 频繁 的 。 


























第 二 个 问题 是 在 问题 和 答案 两 者 之 间 , 哪 一 个 使 用 代码 分 享 URL 的 频率 更 高 。 查 询 结果 表明 ， 
问题 中 使 用 代码 分 享 URL 的 比率 几乎 是 答案 中 的 两 倍 , 但 由 于 我 们 使 用 的 是 测试 数据 集 ， 所 以 测 
试 数据 量 比 较 小 一 些 。 

第 三 个 问题 是 要 查 出 人 们 是 否 听 从 了 Stack Overflow 的 建议 ， 在 使 用 代码 分 享 URL 的 同时 还 
附加 了 程序 源 代码 。 在 前 面 的 测试 数据 集中 ， 查询 结果 显示 有 25 条 用 户 提 交 ( 总 数 为 37 ) 既 包 括 
代码 分 享 URL， 义 包括 源 代码 。 建 议 的 接受 比率 为 68%。 


除了 上 面 的 问题 之 外 , 我 们 还 可 以 提出 更 多 的 问题 来 进行 分 析 解 答 , 也 可 以 使 用 更 多 的 方法 
来 扩展 这 个 实验 , 使 它 更 加 有 趣 。 但 是 现在 , 我 们 应 该 把 项 目的 存储 和 清洗 步 又 转移 到 完整 的 数 





据 集 上 。 



















































































9.7 ”从 测试 表 转 向 完整 数据 表 


在 项 目 开始 的 前 期 , 我 们 生成 了 一 些 只 含有 1000 条 数据 的 小 规模 测试 表 , 以便 在 毫 无 压力 的 
环境 中 开发 项 目 。 有 了 这 些 数据 量 可 控 的 小 规模 数据 表 , 我 们 可 以 放心 地 校 验 查询 语句 的 正确 性 ， 














并 对 联合 查询 、 子 查询 、 正 则 表达 式 等 内 容 进行 反复 实验 。 如 果 我 们 对 之 前 编写 的 查询 语句 和 脚 


本 程序 的 结果 都 比较 满意 的 话 , 那么 现在 就 可 以 重新 梳理 我 们 的 执行 步 又, 完成 对 全 数据 量 数据 





表 的 操作 了 。 

















下 面 是 将 项 目 转移 到 完整 数据 表 的 步骤 。 


(1) DROP 测 试 表 : 


LE IF 
LE IF 
LE IF 
LE IF 
lE LE 
LE IF 
LE IF 


P 
P 
P 
p 
P 
P 
P 
P LE IF 














Bl 
BI] 
BI] 
BI 
Bl 
Bl 
Bl 
Bl 


EXISTS t 
EXISTS t 
EXISTS t 
EXISTS t 
EXISTS t 
EXISTS t 
EXISTS t 
EXISTS t 





t badges; 

t comments; 

t posts; 

t post history; 
t post links; 

t tags; 

t users; 





t votes; 


(2) 清空 数据 表 cleaned_posts_code、 cleaned posts_urls 和 和 cleaned | comments . 


urls: 
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TRUNCATE TABLE cleaned, posts. code; 
TRUNCATE TABLE cleaned, posts urls; 
TRUNCATE TABLE cleaned comments urls; 








(3) 编辑 脚本 urlExtractor .php 和 codeExtractor.php， 将 SELECT 语 句 中 的 用 户 提 交 表 
从 test_posts 表 改 到 全 数据 量 表 。 具体 做 法 可 以 参考 下 面 的 代码 : 


SELECT Id, Body FROM posts 


(4) 重新 运行 脚本 urlExtractor.bphp 和 coqeExttractor.phb， 再 次 用 清洗 过 的 代码 和 
URL 填 充 刚刚 清空 ( 执行 过 truncate 操 作 ) 的 数据 表 。 


至 此 , 我 们 已 经 拿 到 了 可 以 用 于 分 析 和 可 视 化 实现 的 干净 的 代码 数据 表 和 URL 数 据 表 。 在 执 
行 这 些 操作 的 时 候 不 要 着 急 , 因为 其 中 的 许多 查询 和 脚本 都 是 比较 耗 时 的 。 一 方面 是 用 户 提 交 表 
的 数据 量 很 大 ， 另 一 方面 是 许多 针对 文本 字段 的 查询 语句 里 使 用 了 大 量 的 模糊 查询 技术 。 



























































9.8 小 结 


在 这 个 项 目 中 ， 我 们 提出 了 在 Stack Overflow 上 代码 分 享 URL 使 用 程度 的 问题 ， 这 类 网 站 如 
http://www.Pastebin.com 和 http://www.JSFiddle.net。 为 了 回答 与 之 相关 的 问题 ， 我 们 先是 从 Stack 
Exchange 公 共 文 件 发 布 网 站 上 下 载 了 Stack Overflow 的 用 户 提交 数据 和 一 些 其 他 的 Stack Overflow 
数据 。 之 后 创建 了 一 个 MySQL 数 据 库 和 八 张 数据 表 来 存放 这 些 数据 。 接 着 又 创建 了 测试 用 的 数 
ER, 每 张 表 的 数据 量 为 1000, 这 些 数据 都 是 随机 选择 的 。 从 测试 数据 表 中 我 们 提取 了 每 个 问题 、 
答案 和 用 户 评论 中 使 用 的 URL, 并 把 它们 保存 在 新 的 干净 的 数据 表 中 。 我 们 也 把 问题 和 答案 中 使 
用 到 的 程序 源 代码 单独 存放 到 新 的 数据 表 中 。 最后, 我 们 构建 了 一 些 简单 的 查询 语句 并 实现 了 数 
据 可 视 化 ， 利 用 这 些 结果 回答 了 项 目 开 始 之 初 提出 的 几 个 问题 。 


尽管 结果 平淡 无 奇 , 但 从 数据 清洗 角度 来 看 ,我 们 的 晚餐 聚会 还 是 很 成 功 的 。 我 们 成 功 地 制 
定 了 计划 ,并 有 条 不 亲 地 应 用 到 实践 中 ,然后 根据 实际 需要 做 了 相应 的 调整 。 现 在 该 是 进入 最 后 
一 个 项 目的 时 候 了 ， 那 将 是 一 个 完全 不 同 的 晚餐 聚会 荣 单 。 


在 下 一 音 ， 我 们 将 从 著名 的 Twitter 数据 中 收集 并 清洗 属于 我 们 自己 的 数据 集 。 
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与 第 9 章 一 样 ， 这 一 章 描述 的 是 另 一 场 晚 餐 聚 会 。 在 整个 数据 科学 过 程 的 每 一 个 阶段 ， 我 们 
将 演示 不 同 的 数据 清洗 技术 。 前 一 章 的 项 目 中 使 用 的 数据 来 自 Stack Overflow， 清 洗 时 使 用 了 
MySQL 和 PHP 技 术 ， 可 视 化 实现 则 是 依靠 JavaScript 的 D3 库 完成 的 。 而 在 这 一 章 ， 我 们 要 使 用 的 
数据 来 自 Twitter， 并 改 用 MySQL 和 了 Python 完成 数据 的 收集 和 清洗 过 程 ， 最 后 会 用 JavaScript 和 D3 
实现 数据 的 可 视 化 。 与 前 一 个 项 目 类 似 ， 这 一 章 的 项 目 也 会 采用 相同 的 数据 科学 过 程 。 

(1) 问题 定位 一 一 为 什么 要 关注 这 种 数据 ? 

D 数据 的 收集 与 保存 ， 内 容 包括 数据 下 载 ， 提 取 对 公共 开放 的 推 文 ID 数据 集 ， 以 及 使 用 程 
序 重 新 下 载 原始 推 文 数据 。 这 一 步 也 需要 创建 测试 用 的 小 规模 数据 表 。 


(3) 在 提取 与 保存 我 们 需要 的 数据 的 同时 ， 完 成 数据 清洗 任务 。 在 这 一 步 中 我 们 会 编写 一 个 
用 于 数据 加 载 的 Python 程 序 ， 只 提取 有 用 的 字段 ， 并 把 它们 写 入 测试 数据 表 中 。 

(4) 分 析 数据 。 我 们 需要 执行 一 些 计算 逻辑 吗 ?” 应 不 应 该 利用 聚合 函数 计算 数据 的 个 数 或 汇 
总 值 ”是 否 需 要 按照 某 种 方式 对 数据 进行 转换 ? 

(5) 如 果 有 可 能 的 话 ， 提 供 一 些 数据 可 视 化 实现 。 

(6) 调查 研究 并 解决 问题 。 我 们 的 处 理 过 程 有 效 吗 ?最 终 取 得 预期 的 效果 了 吗 ? 

和 前 一 个 项 目 一 样 , 大 部 分 工作 都 集中 在 数据 的 收集 、 存 储 和 清洗 上 。 在 这 个 项 目 中 , 我 们 
将 密切 关注 不 同时 期 的 数据 ， 从 最 初 的 文本 文件 ， 到 后 来 的 JSON 文 件 ， 再 到 最 后 的 MySQL 数 据 
库 。 每 种 格式 的 数据 都 源 自 不 同 的 收集 或 清洗 过 程 , 并 且 每 次 得 到 的 结果 都 会 被 传递 到 下 一 个 步 
又 中 使 用 。 通 过 这 种 形式 我 们 了 解 到 ,数据 的 收集 、 存 储 和 清洗 操作 都 是 迭代 进行 的 一 一 一 个 操 
作 的 输出 结果 可 以 是 另 一 个 操作 的 输入 数据 一 一 并 不 仅仅 是 简单 的 线性 执行 。 













































































10.1 第 一 步 : 关于 推 文 归档 数据 的 问题 


Twitter 是 一 个 流行 的 微 博 平台 , 全 世界 有 好 几 百 万 人 都 在 用 它 分 享 对 时 事 的 观点 或 看 法 。 由 
于 Twitter 的 发 布 和 阅读 比较 容易 ,尤其 是 在 移动 设备 上 ,它们 然 已 经 成 为 分 享有 关 政 治 危机 和 抗 
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议 等 公共 事件 的 信息 , 或 追踪 热点 问题 的 重要 平台 。 被 保存 下 来 的 推 文 数据 就 好 像 是 一 种 时 空 胶 
赛 ， 反 映 了 大 事件 发 生 时 公众 的 情绪 。 而 且 ， 被 “定格 ”下 来 的 推 文 本 身 不 会 受到 记忆 差错 或 事 
态 变 化 的 影响 。 学 者 和 媒体 专家 们 可 以 收集 并 研究 这 些 与 时 事 相关 的 推 文 归档 数据 , 以 此 来 了 解 
更 多 的 与 事件 有 关 的 公众 与 论 ， 或 是 信息 的 传播 方式 ， 甚 至 是 事件 的 细节 、 发 生 时 间 和 起 因 。 


现在 许多 人 都 开始 公开 他 们 的 推 文 数据 集 。 下 面 是 一 些 可 供 公 众 下 载 的 推 文 归档 数据 。 


口 2014 年 8 月 10 日 至 27 日 , 在 美国 密苏里 州 的 弗格森 事件 后 , 与 抗议 和 动乱 有 关 的 推 文 内 容 。 
其 访问 地 址 为 https://archive.org/details/ferguson-tweet-ids。 

a 在 2011 年 阿拉 伯 之 春 事件 中 ， 发 自 利 比 亚 、 巴 林 、 埃 及 等 国家 的 推 文 内 容 。 其 访问 地 址 
为 http://dfreelon.org/2012/02/11/arab-spring-twitter-data-now-available-sort-of/。 

口 2014 年 5 月 到 6 月 ,与 标签 #YesAllWomen 和 #NotAlIMen 有 关 的 推 文 ,其 访问 地 址 为 http://digital. 
library.unt.edu/ark:/67531/metadc304853/。 


下 一 步 ， 我 们 需要 选择 其 中 的 一 个 主题 来 下 载 对 应 的 数据 ， 并 利用 这 些 数据 展开 后 续 工 作 。 
因为 弗格森 事件 推 文 是 上 面 三 个 数据 集中 最 新 最 完整 的 ， 所 以 我 选择 它 作为 实验 对 象 。 然 而 , 无 
论 你 选用 的 是 哪个 数据 集 ， 这 里 讨论 的 概念 和 基本 步骤 都 是 通用 的 。 

在 本 章 中 我 们 提出 的 问题 很 简单 : 当 人 们 在 推 文中 谈论 弗格森 事件 时 , 提 到 的 最 多 的 互联 网 
域名 有 哪些 ”与 第 9 章 的 问题 集 相 比 , 这 个 问题 非常 简单 , 但 是 这 里 的 数据 集 处 理 方式 有 所 不 同 ， 
所 以 说 一 个 简单 的 问题 就 足以 让 我 们 再 举办 一 次 数据 科学 晚餐 聚会 。 
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10.2 第 二 步 : 收集 数据 


与 我 们 在 第 7 章 中 使 用 的 推 文 归档 数据 有 所 不 同 ， 这 次 使 用 的 推 文 归档 数据 不 再 包含 推 文 的 
正文 内 容 。Twitter 的 服务 条 款 在 2014 年 曾经 做 过 调整 ， 随 意 发 布 他 人 推 文正 文 内 容 的 行为 违背 了 
该 条 款 。 在 这 次 使 用 的 新 版 本 推 文 归档 文件 中 ， 我 们 能 找到 的 只 有 推 文 编号 (ID )。 真 正 的 推 文 
数据 需要 通过 这 些 数据 间接 地 收集 。 之 后 我 们 才 可 以 进行 推 文 数据 存储 和 分 析 操 作 。 还 有 一 点 需 
要 注意 , 不 论 是 在 项 目 实施 过 程 中 还 是 完成 之 后 , 我 们 都 不 可 以 重新 发 布 推 文正 文 内 容 和 它们 的 
元 数据 信息 ， 唯 一 可 以 发 布 的 是 编号 信息 。 

























































































对 于 研究 人 员 来 说 , 收集 推 文 数据 可 能 不 太 方便 ， 但 Twitter 改变 他 们 服务 条 
款 的 目的 是 为 了 保护 推 文 原作 者 的 版 权 。 尤 其 是 在 推 文 删除 操作 上 , 这 一 点 更 为 
ERT, 如 果菜 条 推 文 信息 在 网 络 上 被 随意 复制 与 发 布 , 并 由 第 三 方 以 数据 文件 
= 的 形式 保存 下 来 ,那么 这 条 推 文 将 永远 无 法 被 真正 地 删除 。 通 过 只 允许 研究 人 员 
收集 推 文 的 ID 编号 ，Twitter 可 以 保护 推 文 原作 者 删除 推 文 的 权利 。 用 一 个 已 经 删 

除 的 推 文 ID 向 服务 器 发 出 请 求 是 不 会 得 到 结果 的 。 





10.2.1 下 载 并 提取 弗格森 事件 的 数据 文件 


与 弗格森 事件 相关 的 推 文 数据 可 以 从 互联 网 档案 馆 ( Internet Archive ) 上 以 压缩 文件 形式 获 
取 。 只 需 使 用 浏览 器 访问 地 址 https://archive.org/details/ferguson-tweet-ids， 就 可 以 下 载 一 个 体积 
147 MB 的 ZIP 文 件 。 


然后 可 以 通过 下 面 的 命令 提取 文件 中 的 内 容 : 











unzip ferguson-tweet-ids.zip 

通过 1s 命 令 能 显示 目录 ferguson-tweet-ids 中 的 内 容 ， 其 中 含有 两 个 压缩 文件 : ferguson- 
indictment-tweet-ids.zip 和 ferguson-tweet-ids.zip。 现 在 唯一 需要 做 的 就 是 解压 其 中 一 个 文件 供 项 目 
使 用 ， 所 以 我 选择 了 下 面 的 文件 : 




















unzip ferguson-tweet-ids.zip 


文件 解压 之 后 会 生成 一 些 清单 文件 和 一 个 数据 文件 夹 。 在 数据 文件 夹 内 部 有 一 个 经 过 gzip 压 
缩 的 文件 。 它 的 解压 方法 如 下 : 


gunzip ids.txt.gz 

该 操作 会 生成 一 个 名 为 ids.txt 的 文件 。 这 正 是 我 们 需要 的 文件 。 接 下 来 就 是 熟悉 文件 的 内 容 。 

运行 wc 命令 可 以 查看 文件 中 的 数据 规模 。 在 命令 提示 符 下 运行 wc 命令 后 ， 我 们 可 以 看 到 文 
件 的 行 数 、 单 词 个 数 和 字符 数 的 统计 信息 : 


megan$ wc ids.txt 
13238863 13238863 251538397 ids.txt 


第 一 个 数字 表明 文件 ids.txt 中 有 多 少 行 数据 ， 总 数 高 达 1300 万 。 接 下 来 我 们 可 以 使 用 head 命 
令 看 一 下 文件 的 内 容 : 

















megan$ head ids.txt 
501064188211765249 
501064196642340864 
501064197632167936 
501064196931330049 
501064198005481472 
501064198009655296 
501064198059597824 
501064198513000450 
501064180468682752 
501064199142117378 


head 命 令 显 示 了 文件 的 前 十 行 记 录 ， 从 中 我 们 可 以 看 出 每 行 都 是 一 个 由 18 位 数字 组 成 的 推 
文 ID。 
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10.2.2 ”创建 一 个 测试 用 的 文件 


在 这 个 阶段 , 我 们 要 创建 一 个 小 规模 的 测试 文件 来 完成 后 续 的 流程 。 之 所 以 这 么 做 ,原因 和 
第 9 章 一 样 。 因 为 原始 文件 实在 是 太 大 了 ， 所 以 我 们 只 使 用 一 小 部 分 数据 就 好 ， 这 样 就 可 以 把 犯 
错 成 本 限制 在 可 控 范 围 内 。 还 有 一 点 好 处 是 , 在 测试 程序 代码 的 时 候 不 需要 等 待 太 长 时 间 来 完成 
每 一 步 。 

与 上 一 章 的 练习 有 所 不 同 ， 测 试 数据 是 否 要 随机 选择 并 不 重要 。 从 前 面 head 命 令 显 示 的 结 
RRA, 数据 并 不 是 按照 从 小 到 大 的 顺序 排列 的 。 事实 上 , 我 们 也 没有 办 法 了 解 原 始 数 据 到 底 是 
根据 什么 条 件 进行 编排 的 。 因此 , 只 要 抓 取 前 1000 条 推 文 ID 并 把 数据 存放 到 另外 一 个 文件 就 可 以 
了 。 下 面 命令 生成 的 文件 就 是 我 们 要 操作 的 测试 数据 集 : 


head -1000 ids.txt > ids 1000.txt 










































































10.2.30 ”处 理 推 文 ID 


下 面 使 用 测试 数据 集 里 的 1000 条 推 文 ID ,根据 这 些 编号 信息 收集 原始 推 文 的 正文 内 容 。 为 此 ， 
需要 用 到 一 个 用 Python 编写 的 小 工具 twarc， 该 工具 的 作者 是 Ed Summers， 也 正 是 他 把 所 有 与 弗 
格 森 事件 有 关 的 推 文 做 了 归档 处 理 。 我们 要 做 的 就 是 准备 一 份 推 文人 DD 编号 列表 , 然后 利用 Twitter 
API 逐 条 地 获取 原始 推 文 的 正文 内 容 。 使 用 Twitter API 的 时 候 ， 必 须 先 设置 好 Twitter 开发 者 账号 。 
所 以 ， 接 下 来 要 讲述 的 就 是 Twitter 账号 的 准备 ， 以 及 twarc 的 安装 和 使 用 。 


1. 设置 Twitter 开发 者 账号 


要 想 设 置 Twitter 开发 者 账号 ， 得 先 访问 https:/apps.twittercom 并 用 你 的 Twitter 账号 登录 进去 。 
果 你 还 没有 Twitter 三 号 ， 那 就 先 申 请 一 个 ， 然 后 再 继续 后 面 的 步骤。 


使 用 Twitter 账号 登录 进去 后 ， 点 击 http:/apps.twitter.com 页 面 上 的 Create New App。 然 后 填写 
创建 应 用 所 需 的 详细 信息 (需要 提供 应 用 的 名 字 ,， 诸 如 My Tweet Test 之 类 ; 一 小 段 描述 信息 ; 一 
个 URL， 可 以 是 非 永久 性 的 )。 下面 是 我 填写 的 应 用 创建 表单 ， 仅 供 参 考 : 




























































































pi 


I 
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Application Details 
Name * 
My Fabulous Tweet Test 


Your application name. This is used to attribute the source of a tweet and in user-facing authorization screens. 32 characters max. | 


| 
Description * 
Just testing the rehydration of tweets 


Your application description, which will be shown in user-facing authorization screens. Between 10 and 200 characters max. 


Website * 


http:;//flossmole.org 








含有 示例 数据 的 Create New App 表 单 


色 选 其 中 的 复 选 框 表明 你 同意 开发 者 协议 , 然后 重新 回 到 Twitter 应 用 的 列表 页 面 , 这 时 刚刚 
创建 的 应 用 会 出 现在 列表 顶端。 


接 下 来 , 为 了 使 用 应 用 , 需要 获取 一 些 能 让 应 用 正常 工作 的 关键 信息 。 点 击 刚 刚 创建 好 的 应 
用 , 你 会 从 页 面 的 上 方 看 到 四 个 页 签 。 我 们 需要 的 数据 人 处 在 名 为 Keys and Access Tokens 的 页 签 中 。 
截图 如 下 所 示 。 











Details Settings Keys and Access Tokens Permissions 
































新 创建 的 Twitter 应 用 的 页 签 界 二 
这 个 页 面 中 有 许多 数字 和 保密 码 ， 但 我 们 需要 关注 的 只 有 四 项 : 














0 CONSUMER KEY 

DQ CONSUMER SECRET 

DQ ACCESS TOKEN 

口 ACCESS TOKEN SECRET 








不 管 你 使 用 的 是 哪 种 Twitter API 编 程 技术 ， 至 少 在 此 时 此 刻 ， 你 一 定 需要 这 四 项 内 容 。twarc 
也 好 ， 别 的 工具 也 婴 ， 都 得 遵守 这 个 约定 。 这 些 信息 可 以 让 Twitter 对 你 的 身份 进行 验证 并 授予 被 
请 求 资源 的 访问 权限 。 
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这 些 API 认 证 信息 也 是 Twitter 限制 请 求 发 送 次 数 和 请 求 发 生 频 率 的 依据 。 不 

IS 过 工具 twarc 可 以 替 我 们 处 理 好 这 些 事 ， 所 以 我 们 不 必 对 流量 限制 过 分 担心 。 要 

OO 想 了 解 更 多 关于 Twitter 流量 限制 的 信息 ， 请 查询 他 们 的 开发 者 文档 ， 地 址 为 
https://dev.twitter.com/rest/public/rate-limiting。 


2. 安装 twarc 


既然 已 经 取得 了 Twitter 的 认证 信息 ， 接 下 来 就 可 以 安装 twarc 了 。 


GitHub 上 twarc 的 下 载 页 面 是 https://github.com/edsu/twarc。 在 这 个 页 面 上 , 有 一 份 关 于 工具 使 
用 方法 和 相关 选项 的 文档 。 


要 想 在 Canopy Python 环境 下 安装 twarc， 得 先 启动 Canopy， 然 后 从 Tools 菜 单 中 选择 Canopy 


Command Prompt。 


然后 在 命令 行 中 ， 输 入 下 面 的 安装 命令 : 
































pip install twarc 


这 个 命令 会 安装 twarc， 并 可 以 让 我 们 从 命令 行 或 是 Python 脚本 程序 中 以 命令 方式 调用 它 。 





3. 运行 twarc 


现在 我 们 可 以 从 命令 行 中 运行 twarc 来 处 理 前 面 创建 的 测试 文件 ids_1000.txt。 这 次 用 到 的 命 
令 非 常 长 ， 因 为 我 们 需要 传递 之 前 在 Twitter 网 站 上 创建 的 四 个 长 长 的 密令 。 为 了 减少 犯错 机 会 ， 
我 先 使 用 文本 编辑 咒 Text Wrangler 来 构建 命令 ， 然 后 再 把 它 粘 贴 到 命令 提示 符 里 去 。 最 终 构 建 好 
的 命令 应 该 与 下 面 的 例子 一 致 ， 只 是 要 把 abcq 蔡 换 成 实际 的 密令 或 密 钥 : 















































twarc.py --consumer key abcd --consumer secret abcd --access token 
abcd --access token secret abcd --hydrate ids 1000.txt » 
tweets 1000.json 


注意 ， 这 条 命令 会 把 输出 结果 重 定向 到 一 个 名 为 tweets_1000.json 的 JSON 文 件 中 。 在 文件 内 
部 ， 与 ID 对 应 的 每 条 推 文 数据 都 以 JSON 格 式 展 现 。 让 我 们 看 看 新 文件 的 长 度 : 

















wc tweets 1000.json 

从 工具 wc 的 运行 结果 来 看 ， 文 件 一 共 才 有 894 行 ， 这 表明 有 些 推 文 信息 没有 找到 ( 因为 我 最 
初 放 在 数据 集中 的 数据 共有 1000 条 )。 如 果 在 我 编写 本 书 之 后 又 有 一 部 分 推 文 被 删除 的 话 ， 那 么 
你 的 文件 会 比 这 个 还 要 小 。 

让 我 们 再 通过 下 面 的 命令 看 看 文件 的 内 容 : 


less tweets 1000.json 
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当然 ， 我 们 还 可 以 在 文本 编辑 器 中 打开 文件 。 


JSON 文 件 中 的 每 一 行 记 录 都 代表 一 条 推 文 ， 内 容 样式 与 下 面 截图 中 的 例子 相似 。 但 这 个 推 
文 截 图 不 是 来 自 弗格森 事件 数据 集 ， 因 为 我 无 权 发 布 与 之 相关 的 推 文 内 容 。 所 以 , 我 使 用 了 一 条 
专 为 第 2 章 讨论 UTF-8 编 码 创 建 的 推 文 。 因 为 这 条 推 文 是 为 本 书 创建 的 ， 我 对 其 中 的 内 容 拥有 所 


有 权 ， 所 以 我 可 以 在 不 违反 Twitter 服务 条 款 的 情况 下 向 读者 展现 相应 的 JSON 格 式 数据 。 下 面 是 
这 条 推 文 在 Twitter 上 的 展现 样式 。 



































AE 








megan squire 
MeganSquireO 





Another test. Ég elska gógn. #datacleaning 


8:09 PM - 9 Dec 2014 











Titter 网 站 上 的 推 文 样式 











下 面 是 该 推 文 内 容 经 过 twarc 处 理 后 的 JSON 格 式 展现 。 为 了 更 容易 地 了 解 到 推 文中 都 有 哪些 
属性 ， 我 特意 在 每 个 JSON 元 素 之 间 添 加 了 换行 符 : 














"uni 


[*"contributors*s null, 

"truncated": false, 

"text": "Another test. Nu00c9g elska gNu0O0f6gn. 
"in reply to status id": null, 

vid": 542486101047275520, 


ddatacleaning", 





"favorite count": 0, 
"Source": "<a href=\"http://twitter.com\" rel=\"nofollow\">Twitter Web 
Client«/a»", 


"retweeted": false, 
"coordinates": null, 





"entities": 

("symbols": [], 

"user mentions": [], 

"hashtags": 

[("indices": [29, 42], 

"text": "datacleaning"J], 
tarle CDS 

"in reply. to screen name": null, 
"id str": "542486101047275520", 
"retweet_count": O0, 


"in reply to user id": null, 
"favorited": false, 
"user": 
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("follow request sent": false, 

"profile use background image": false, 

"profile text color": "333333", 

"default profile image": false, 

"d'*s398660T; 

"profile background image url https": "https://pbs.twimg.com/profile . 
background images/772436819/D7£7]083e42c9150529fD13971a52528.png", 
"verified": false, 

"profile location": null, 





"profile image url https": "https://pbs.twimg.com/profile 
images/3677035734/d48853be8c304729610991194846c49ba  normal.jpeg", 
"profile sidebar fill color": "F6F6F6", 

"entities": 

(UR 

(turist: 

[("url": "http://t.co/dBONKhR6jY", 

"indices": [0, 22], 

"expanded url": "http://about.me/megansquire", 

"display url": "about.me/megansquire")]), 

"description": ("urls": [])), 

"followers count": 138, 

"profile sidebar border color": "FFFFFF", 

"udcstr"t: "986607", 

"profile background color": "000000", 


"listed count": 6, 
"is translation enabled": false, 


"utc offset": -14400, 
"statuses count": 376, 
"description": "Open source data hound. Leader of the FLOSSmole 


project. Professor of Computing Sciences at Elon University.", 
"friends count": 82, 


"location": "Elon, NC", 
"profile link color": "038543", 
"profile image url": "http://pbs.twimg.com/profile images/3677035734/ 


d8853be8c304729610991194846c49ba normal.jpeg", 

"following": false, 

"geo enabled": false, 

"profile banner url": "https://pbs.twimg.com/profile 
banners/986601/1368894408", 

"profile background image url": "http://pbs.twimg.com/profile. 
background images/772436819/D7f70083e42c9150529fD13971a52528.png", 
"name": "megan squire", 

"lang": "en", 

"profile background tile": false, 

"favourites count": 64, 

"Screen name": "MeganSquireO'", 

"notifications": false, 

"url": "http://t.co/dBONKhR6jY", 

"created at": "Mon Mar 12 05:01:55 «0000 2007", 

"contributors enabled": false, 

"time zone": "Eastern Time (US & Canada)", 

"protected": false, 

"default profile": false, 

"is translator": false), 
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"geo": null, 

"in reply to user id str": null, 

"lang"s "38", 

"created at": "Wed Dec 10 01:09:00 «0000 2014", 
"in reply to status id str": null, 

"place": null) 


JSON 对 象 不 仅 表现 了 推 文 的 正文 和 发 布 的 日 期 与 时 间 ， 就 连 发 布 人 的 信息 也 包含 在 内 。 

















M 单单 一 条 推 文 的 处 理 就 产生 了 这 么 大 的 信息 量 ， 而 我 们 实际 要 处 理 的 可 是 
1300 万 条 。 所 以 ， 当 你 准备 在 本 章 最 后 处 理 全 部 的 弗格森 事件 数据 集 时 ,请 务必 
记得 这 一 点 。 


10.3 第 三 步 : 数据 清 ; 


到 这 里 ， 我 们 可 以 正式 开始 清洗 JSON 文 件 了 ， 具 体操 作 就 是 提取 每 条 需要 长 期 保存 的 推 文 
细节 信息 。 











10.3.1 创建 数据 表 


由 于 我 们 一 开始 提出 的 问题 就 是 针对 URL 的 , 所 以 在 处 理 过 程 中 只 提取 那些 包含 URL 和 推 文 
ID 的 数据 就 足够 了 。 除 此 之 外 , 为 了 方便 数据 清洗 以 及 和 与 前 面 第 7 章 中 的 Sentiment140 数 据 集 做 
比较 ， 我 们 还 需要 设计 出 数据 规模 较 小 的 数据 表 。 


口 tweet 表 ， 用 于 放置 推 文 信息 
口 hashtag 表 ， 用 于 放置 推 文 内 容 中 引用 的 标签 信 ， 
Q URL 表 ， 用 于 放置 推 文 内容 中 引用 的 URL 信 息 
口 mentions 表 ， 用 于 放置 推 文中 包含 的 提 及 用 户 信息 


这 与 之 前 在 第 7 章 中 设计 的 方案 比较 类 似 ， 只 是 我 们 得 自己 动手 从 推 文中 解析 出 标签 、URL 
和 提 及 用 户 信 息 。 但 借助 工具 twarc， 实 际 上 我 们 已 经 节省 了 一 些 工作 量 。 


下 面 是 创建 四 张 测试 表 用 的 CREATE 语 人 句 : 


CREATE TABLE IF NOT EXISTS ferguson tweets ( 
tid bigint(20) NOT NULL, 
ttext varchar(200) DEFAULT NULL, 
tcreated at varchar(50) DEFAULT NULL, 
tuser bigint(20) DEFAULT NULL, 

PRIMARY KEY (tid) 
) ENGINE-MyISAM DEFAULT CHARSET-utf8mb4; 






































证 






























































CREATE TABLE IF NOT EXISTS ferguson tweets hashtags ( 
tid bigint(20) NOT NULL, 
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ttag varchar(200) NOT NULL, 
PRIMARY KEY (tid, ttag) 
) ENGINE=MyISAM DEFAULT CHARSET-utf8; 


CREATE TABLE IF NOT EXISTS ferguson tweets mentions ( 
tid bigint(20) NOT NULL, 
tuserid bigint(20) NOT NULL, 
tscreen varchar(100) DEFAULT NULL, 
tname varchar(100) DEFAULT NULL, 
PRIMARY KEY (tid,tuserid) 
) ENGINE-MyISAM DEFAULT CHARSET-utf8; 





CREATE TABLE IF NOT EXISTS ferguson tweets urls ( 
tid bigint(20) NOT NULL, 
turl varchar(200) NOT NULL, 
texpanded varchar(255) DEFAULT NULL, 
tdisplay varchar(200) DEFAULT NULL, 
PRIMARY KEY (tid,turl) 
) ENGINE-MyISAM DEFAULT CHARSET-utf8; 


另外 还 有 一 件 事 情 需要 注意 ， 存 放 推 文 数据 的 测试 表 是 采用 utfgmb4 编 码 创 建 的 。 这 是 因为 
推 文 内 容 中 可 能 会 包含 UTF-8 编 码 范围 之 外 的 字符 。 实 际 上 ， 推 文中 的 一 些 特殊 字符 需要 占用 的 
存储 空间 , 已 经 超过 MySQL 原 生 UTF-8 字 符 集 所 能 支持 的 三 字 节 。 因 此 , 我 们 在 设计 核心 的 推 文 
表 时 ， 采 用 MySQL 的 utfgmb4 编 码 来 存放 数据 ， 这 种 编码 在 MySQL 5.5 和 更 高 的 版 本 中 都 支持 。 
如 果 你 的 MySQL 版 本 比较 旧 ， 或 是 出 于 某 些 其 他 原因 不 能 使 用 utfgmb4 编 码 ， 那 么 可 以 使 用 
MySQL 早 期 的 UTF-8-general 编 码 ， 但 要 小 心 处 理 那 些 由 表情 符号 引起 的 编码 错误 。 如 果 你 恰巧 
在 做 INSERT 操 作 时 碰 到 这 种 错误 , MySQL 大 多 数 时 候 会 抛 出 1366 错 误 , 并 在 消息 中 给 出 incorrect 
string value 字 样 。 


现在 我 们 已 经 创建 完 所 有 的 测试 表 了 ， 接 下 来 就 可 以 继续 后 面 的 数据 筛选 与 加 载 工 作 了 。 
















































































10.3.2 ”用 Python 为 新 表 填充 数据 
我 们 需要 编写 Python 脚本 来 加 载 JSON 文 件 ， 提 取 那 些 有 用 的 字段 值 ， 并 为 前 面 创建 的 四 张 
测试 表 填充 数据 。 另 外 还 有 一 些 额外 的 重要 注意 事项 ， 我 将 一 一 介绍 。 


在 运行 这 份 脚本 之 前 , 我 们 需要 安装 好 Python 的 MysoLdb 模 块 。 对 于 Canopy Python 的 用 户 来 
说 ， 很 容易 从 包 管 理 器 中 安装 这 些 模块 。 只 需 在 Package Manager 中 搜索 MySQLdb ， 然 后 点 击 安 
装 即 可 : 
E : 






































djsonTweetCleaner.py 
import json 
import MySQLdb 


# 打开 数据 库 连 接 
db = MySQLdb.connect (host-"localhost",WN 
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user-"username", \ 

passwd="password", \ 

db="ferguson", \ 

use unicode-True, V 

charset-"utf8") 
cursor - db.cursor() 
cursor.execute('SET NAMES utf8mb4') 
cursor.execute('SET CHARACTER SET utf8mb4') 
cursor.execute('SET character set connection-utf8mb4') 


# 打开 json 格 式 的 推 文 数据 

with open('tweets_1000.json') as f: 
for line in f: 

将 每 一 条 推 文 都 放 进 字典 中 


tweetdict = json.loads(line) 





# 获取 每 一 条 推 文 并 写 进 数 据 库 表 中 

tid - int(tweetdict['id']) 

ttext = tweetdict['text'] 

uttext - ttext.encode('utf8') 
tcreated at - tweetdict['created at'] 
tuser = int(tweetdict['user']['id']) 





try: 
cursor.execute(u"INSERT INTO ferguson tweets (tid, 
ttext, tcreated at, tuser) VALUES ($s, $s, $s, $S)", \ 
(tid,uttext,tcreated at,tuser)) 
db.commit() # 在 使 用 MySQLdp 时 ， 每 次 数据 变化 后 必须 提交 更 改 内 容 
except MySOLdb.Error as error: 
print (error) 
db.rollback() 


* 处 理 推 文 中 涉及 的 标签 
hashdict = tweetdict['entities']['hashtags'] 
for hash in hashdict: 
ttag - hash['text'] 
Cry? 
cursor.execute(u"INSERT IGNORE INTO 
ferguson tweets hashtags(tid, ttag) VALUES ($s, $s)",(tid,ttag)) 
db.commit() 
except MySOLdb.Error as error: 
print (error) 
db.rollback() 





# 处 理 推 文中 涉及 的 URL 


urldict = tweetdict['entities']['urls'] 
for url in grldict: 
turl - url['url'] 
texpanded = url['expanded url'] 
tdisplay = url['display url'] 
try: 


cursor.execute(u"INSERT IGNORE INTO  ferguson tweets 
urls(tid, turl, texpanded, tdisplay) 
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VALUES ($s, $s, %s, %s)", (tid,turl,texpanded,tdisplay)) 
db.commit() 
except MySQLdb.Error as error: 
print (error) 
db.rollback() 


# 处 理 推 文中 涉及 的 用 户 
userdict = tweetdict['entities']['user mentions'] 
for mention in userdict: 

tuserid - mention['id'] 

tscreen - mention['screen name'] 

tname = mention(['name'] 


try: 
cursor.execute(u"INSERT IGNORE INTO 
ferguson tweets mentions(tid, tuserid, tscreen, tname) 
VALUES ($s, $s, $s, %s)", (tid,tuserid,tscreen,tname)) 
db.commit() 
except MySOQLdb.Error as error: 
print (error) 


* 断 开 服务 器 连接 


db.close() 
如 果 你 想 详细 了 解 JSON 格 式 中 每 一 个 推 文字 段 的 信息 ,请 参见 Twitter 的 API 
M 文档 。 在 从 JSON 数 据 中 提取 字段 值 的 时 候 ， 文档 中 Users、Entities 和 Entities in 


Tweets 这 几 节 内 容 对 我 们 有 着 重要 的 指导 性 作用 。 相 关 的 文档 信息 可 以 从 
https://dev.twitter.com/overview/api/ 找 到 。 











脚本 运行 完成 之 后 ， 四 张 测试 表 中 都 会 填 满 数据 。 当 时 在 我 的 MySQL 服 务 需 中 ， 运 行 完 
ids_1000.txt 之 后 推 文 表 中 共有 893 行 记录 ,标签 表 有 1048 条 记录 ， 提 及 用 户 表 有 896 条 记录 ，URL 
表 有 371 条 记录 。 如 果 你 的 记录 少 于 这 些 ， 请 检查 一 下 是 不 是 因为 有 的 推 文 已 经 被 删除 。 
































10.4 第 四 步 : 简单 的 数据 分 析 


假设 我 们 想 要 了 解 在 弗格森 事件 数据 集中 哪些 域名 被 引用 的 次 数 最 多 。 要 回答 这 个 问题 ， 只 
需 从 数据 表 ferguson_tweets_urls 的 tdisplay 字 段 中 , 提取 数据 中 所 引用 的 URL 域 名 。 在 实 
际 操 作 过 程 中 ，URL 地 址 中 第 一 个 斜 线 (/) 之 前 的 内 容 就 是 我 们 要 考虑 的 。 
利用 下 面 的 SQL 查询 可 以 获取 域名 数据 并 计算 出 推 文 引 用 该 域名 的 次 数 : 
SELECT left(tdisplay,locate('/',tdisplay)-1) as url, 
count(tid) as num 


FROM ferguson tweets urls 
GROUP BY 1 ORDER BY 2 DESC; 


最 后 的 查询 结果 与 下 面 的 示例 数据 相似 〈 以 1000 条 记录 为 测试 样本 ): 

















* 
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url num 
bit.ly 47 
wp.me 32 
dlvr.it 18 
huff.to 13 
usat.ly 9 
ljreview.com 8 
latimes.com 7 
gu.com 7 
ift.tt 7 











上 面 的 数据 集 片 段 只 显示 了 前 几 行内 容 , 实际 的 结果 中 还 有 一 些 使 用 短 域名 服务 生成 的 特殊 
内 容 ， 比 如 pit .1y。 在 这 些 特殊 的 短 域名 中 还 有 一 部 分 是 来 自 Twitter 自 己 网 站 的 ， 如 t.co， 在 
查询 语句 里 改 用 字段 aisplay 就 可 以 把 它们 移 除 。 


在 下 一 节 中 ,我们 可 以 使 用 这 些 统计 数字 以 与 第 9 章 类 似 的 方式 构建 一 张 条 形 图 。 











10.5 第 五 步 : 数据 可 视 化 


要 想 构 建 一 张 D3 图 ， 需 要 按照 第 9 章 中 的 流程 ， 编 写 一 个 用 于 数据 库 查 询 的 PHP 脚 本 ， 然 后 
再 使 用 JavaScript 把 数据 结果 实时 地 输出 到 条 形 图 中 去 。 男 外 还 有 一 种 办 法 就 是 用 Python 生 成 CSV 
文件 ,然后 利用 结果 文件 生成 图 表 。 因 为 在 前 一 章 里 我 们 已 经 使 用 过 PHP 方 案 ， 所 以 在 这 里 我 们 
改 用 CSV 方 案 。 这 也 可 以 让 本 章 所 使 用 的 程序 语言 风格 保持 一 致 。 


通过 下 面 的 脚本 程序 我 们 可 以 连接 到 目标 数据 库 , 并 选 出 最 常用 的 15 个 URL 和 它们 对 应 的 引 
用 次 数 ， 然 后 再 把 这 些 信息 写 到 CSV 文 件 里 : 















































import csv 
import MySQLdb 


# 打开 数据 库 连 接 

db = MySQLdb.connect (host-"localhost", 
user-"username", 
passwd-"password", 
db-"ferguson", 
use unicode-True, 
charset-"utf8") 


cursor - db.cursor() 

cursor.execute('SELECT left(tdisplay, LOCATE(N'/N', 
tdisplay)-1) as url, COUNT(tid) as num 
FROM ferguson, tweets, urls 
GROUP BY 1 ORDER BY 2 DESC LIMIT 15') 


with open('fergusonURLcounts.tsv', 'wb') as fout: 
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writer = csv.writer(fout) 
writer.writerow([ i[0] for i in cursor.description ]) 
writer.writerows (cursor.fetchall()) 


CSV 文 件 生成 之 后 , 就 可 以 把 它 传 人 D3 条 形 图 模版 中 , 看 看 会 有 什么 样 的 效果 吧 。 下 面 是 文 
件 buildBarGraph.html 中 的 内 容 : 


i 录 ， 这 一 点 与 我 们 在 前 一 章 的 处 
[st te 这 一 点 与 我 们 在 前 一 章 的 处 置 


<!DOCTYPE html> 

<meta charset="utf-8"> 

er 

this code is modeled on mbostock's 

"Let's Make a Bar Chart" D3 tutorial 
available at http://bl.ocks.org/mbostock/3885304 
My modifications: 

* formatting for space 

* colors 

* y axis label moved 

* changed variable names to match our data 
* loads data via CSV rather than TSV file 
ride 


«style» 
.bar (fill: lightgrey;) 
.bar:hover (fill: lightblue;) 
.axis (font: 10px sans-serif;) 
.axis path, .axis line ( 
fill: none; 
Stroke: #000; 
shape-rendering: crispEdges; 
} 
.x.axis path (display: none;) 
«/style» 
«body» 
«script src-"d3.min.js"»«/script» 
«script» 


var margin - (top: 20, right: 20, bottom: 30, left: 40), 
width - 960 - margin.left - margin.right, 
height - 500 - margin.top - margin.bottom; 


var x - d3.scale.ordinal() 
.rangeRoundBands([0, width], .1); 


var y = d3.scale.linear() 
.range([height, 0]); 


var xAxis - d3.svg.axis() 
.Scale(x) 
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.orient("bottom"); 


d3.svg.axis() 
y) 
( 


var yAxis = 
.Scale 
.orient("left"); 


var svg = d3.select("body").append("svg") 


.attr("width", width + margin.left + margin.right) 
.attr("height", height + margin.top + margin.bottom) 
.append("g") 
.attr("transform", "translate(" + margin.left + "," + margin.top + 


1)"); 


d3.csv("fergusonURLcounts.csv", type, function(error, data) ( 
x.domain(data.map(function(d) ( return d.url; ))); 
y.domain([0, d3.max(data, function(d) ( return d.num; ))1); 





svg.append("g") 
.attr("class", "x axis") 
.attr("transform", "translate(0," + height + ")") 
.Call(xAxis); 


svg.append("g") 
.attr("class", "y axis") 
.call(yAxis) 
.append("text") 
( 
Cty 


:attr "brane toni "rotate(-90)") 
xai 6) 

;attr "dg"; "-3em") 
.Style("text-anchor", "end") 


.text("Frequency"); 


svg.selectAll(".bar") 

.data(data) 

.enter().append("rect") 

.attr("class", "bar") 
attr "x", function(d) { return x(d.url).; F) 
xdi dth", x.rangeBand()) 
“ty function(d) ( return y(d.num); }) 
.attr("h eight, function(d) ( return height - y(d.num); )); 


)); 





function type(d) ( 
d.num = «d.num; 
return d; 


</script> 
</body> 
</html> 


最 终生 成 的 条 形 图 显示 如 下 。 请 记 住 ， 我 们 使 用 的 是 测试 数据 集 ， 所 以 数字 看 起 来 很 小 。 wo 
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利用 CSV 数 据 绘制 出 来 的 D3 条 形 医 
10.6 ”第 六 步 : 问题 解析 


由 于 数据 可 视 化 不 是 本 书 的 主要 目标 ， 所 以 我 们 没有 必要 在 图 表 的 复杂 程度 上 下 太 多 工夫 ， 
只 要 能 够 说 明 通过 弗格森 事件 数据 集 还 可 以 发 掘 出 很 多 更 有 趣 的 样式 , 而 不 仅仅 是 能 找 出 最 常用 
的 URL, 这 样 就 足够 了 。 既 然 你 已 经 学 会 了 下 载 和 清洗 这 些 杂 乱 的 数据 集 , 或 许 你 可 以 继续 发 挥 
一 下 自己 的 想象 力 , 去 发 现 一 些 有 趣 的 样式 了 。 只 是 在 公开 数据 成 果 的 时 候 , 请 记得 不 要 随意 发 
布 推 文正 文 或 相关 的 元 数据 信息 。 不 过 发 布 推 文 ID 或 是 其 中 的 一 个 子 集 倒是 可 以 的 , 前 提 是 这 些 
言 息 对 于 你 的 问题 确实 有 用 。 


10.7 ”把 处 理 过 程 应 用 到 全 数据 量 〈 非 测试 用 ) 数据 表 


就 像 在 第 9 章 中 那样 ， 我 们 创建 了 一 些 测 试用 的 数据 表 ， 这 样 我 们 的 项 目 就 可 以 在 有 限 数据 
量 的 条 件 下 进行 。 当 你 准备 收集 全 部 的 推 文 内容 的 时 候 , 请 先 做 好 心理 准备 ， 因 为 这 个 过 程 需要 
花费 相当 长 一 段 时 间 。Twitter 会 限制 用 户 的 访问 速率 ， 这 就 是 twarc 会 运行 很 长 时 间 的 原因 。Ed 
Summers 在 他 的 博文 中 说 明 ， 采集 弗 格 森 事件 的 推 文 信息 几乎 花费 了 一 周 时 间 ， 这 篇 博文 的 地 址 
为 http://inkdroid.org/journal/2014/11/18/on-forgetting/。 当 然 ， 如果 你 做 了 细心 的 准备 , 那么 运行 一 
次 就 可 以 得 到 你 想 要 的 结果 了 。 

另外 还 有 一 种 可 以 加 快 推 文 ID 处 理 的 办 法 , 那 就 是 找 一 位 小 伙伴 合作 。 将 推 文 ID 文件 一 分 为 
二 ， 每 人 负责 处 理 分 给 自己 的 那 一 份 。 在 数据 清洗 过 程 中 ， 请 务必 确保 两 人 的 数据 处 理 结果 都 
INSERT 到 同一 张 数 据 表 。 
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下 面 是 将 1000 条 测试 数据 改 为 完整 数据 集 的 修改 步骤 。 


(]) 清空 数据 表 ferguson_tweets、 ferguson tweets hashtags, ferguson tweets 
mentionsjfllferguson tweets urls: 

TRUNCATE TABLE ferguson, tweets; 

TRUNCATE TABLE ferguson tweets hashtags; 


TRUNCATE TABLE ferguson tweets mentions; 
TRUNCATE TABLE ferguson, tweets urls; 


(2) 使 用 完整 版 本 的 ids.txt 文 件 替 代 之 前 使 用 的 ids_1000.txt 文 件 ， 再 次 运行 twarc: 








twarc.py --consumer key abcd --consumer secret abcd --access token 
abcd --access token secret abcd --hydrate ids.txt » tweets.json 


(3) 重新 运行 Python 脚本 jsonTweetCleanerpy。 

全 部 操作 完成 之 后 ,数据 库 中 的 数据 都 已 经 清洗 完毕 ， 其 中 的 推 文正 文 、 标 签 、 提 及 用 户 和 
URL 都 可 以 直接 用 于 数据 分 析 和 可 视 化 实现 。 由 于 每 张 表 中 的 记录 都 比较 多 , 所 以 在 可 视 化 实现 
时 花费 的 时 间 可 能 会 比较 长 ， 具 体 时 长 取决 于 查询 语句 的 执行 时 间 。 








10.8 小 结 


在 这 个 项 目 中 , 我 们 学 会 了 如 何 根 据 推 文 编号 重新 构建 完整 的 推 文 列表。 我 们 先是 下 载 了 一 
些 符合 Twitter 服 务 条 款 的 推 文 数据 ， 并 把 这 些 归档 数据 拆 分 成 可 以 用 于 测试 的 小 规模 数据 表 。 之 
后 学 习 了 怎么 把 每 条 推 文 转换 成 JSON 格 式 的 数据 ， 这 当中 使 用 到 了 Twitter API 和 命令 行 工 具 
twarc。 然 后 又 学 习 了 如 何 使 用 Python 从 JSON 格 式 的 数据 中 提取 需要 的 数据 ， 并 把 结果 保存 到 
MYySQL 数 据 库 中 。 最 后 运行 了 一 些 查 询 语句 统计 出 使 用 最 为 频繁 的 URL 的 个 数 ， 并 用 D3 绘 制 了 
一 张 条 形 图 。 


在 本 书 里 , 我 们 已 经 了 解 了 各 种 数据 清洗 任务 , 包括 简单 的 任务 和 复杂 的 任务 。 一 路 走 下 来 ， 
为 了 应 对 不 同 的 工作 , 许多 不 同 的 编程 语言 、 工 具 和 技术 轮番 上 阵 。 我 希望 你 在 学 习 更 多 新 技能 
的 同时 ， 能 够 巩固 与 完善 已 经 掌握 的 技能 。 


到 此 , 我 们 最 后 一 次 晚餐 聚会 也 完满 结束 了 ,你 现在 已 经 完全 有 能 力 在 物资 齐全 、 干净 整洁 
的 数据 科学 厨房 开启 属于 你 自己 的 项 目 了 。 那 到 底 应 该 从 何 开 始 呢 ? 


口 喜欢 竞赛 和 奖品 吗 ? Kaggle 经 常会 在 他 们 的 网 站 上 举办 数据 分 析 比 赛 ， 网 站 地 址 为 
http:/kaggle.com。 你 可 以 以 个 人 名 义 参 与 ， 或 是 作为 团队 成 员 参 与 。 有 许多 团队 都 需要 
干净 的 数据 ， 所 以 这 是 一 种 很 好 的 参与 方式 。 

口 如 果 你 更 热衷 于 公共 服务 ， 我 猪 想 School of Data 可 能 会 比较 适合 你 。 他 们 的 网 站 是 
http://schoolofdata.org， 在 这 里 开办 的 Data Expeditions 课 程 常常 会 吸引 世界 各 地 的 专家 和 
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业余 爱好 者 一 同 来 解决 现实 生活 中 与 数据 有 关 的 问题 。 

口 为 了 扩大 数据 清洗 练习 的 范围 ， 我 建议 你 亲自 动手 处 理 一 些 对 公众 开放 的 数据 。 
KDnuggets 上 有 一 些 很 好 的 公众 数据 列表 ， 其 中 一 些 列表 还 包含 二 级 列表 ,访问 地 址 为 
http://www.kdnuggets.com/datasets/ 

OQ 你 喜欢 像 第 9 章 这 样 的 例子 吗 ? fr T http//meta.stackexchange.com 上 ff) Meta Stack 
Exchange 是 一 个 专门 讨论 Stack Exchange 工 作 原 理 的 网 站 。 用 户 常 常 在 这 儿 讨 论 如 何 查询 
Stack Overflow 数 据 和 这 些 数据 的 使 用 方式 。 或 许 你 也 可 以 在 这 里 提出 那些 与 Stack 
Overflow 有 关 的 数据 清洗 问题 。 另 外 ，Stack Exchange 还 有 其 他 一 些 与 数据 清洗 有 关 的 下 
属 网 站 。 其 中 一 个 便 是 Open Data Stack Exchange, 访问 地 址 为 http://opendata.stackexchange. 
como 

口 时 下 Twitter 数据 是 非常 流行 的 。 如 果 你 喜欢 处 理 Twitter 数 据 的 话 , 可 以 考虑 把 本 章 的 项 目 
再 提升 一 个 级 别 ， 根 据 公众 开放 的 推 文 数 据 提出 问题 并 给 出 答案 。 比 如 收集 并 甄选 出 属 
于 你 自己 的 推 文 ID 集合 ”如 果 你 根据 某 个 兴趣 主题 构建 了 一 份 干净 的 推 文 ID 集合 并 把 研 
究 成 果 发 布 出 来 ， 研 究 人 员 和 其 他 数据 科学 家 一 定 会 非常 感激 的 。 


祝 你 在 数据 清洗 的 旅途 上 一 路 顺风 ， 扬 帆 起 航 吧 ! 
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数据 清洗 是 数据 挖掘 与 分 析 过 程 中 不 可 缺少 的 一 个 环节 ， 但 因为 数据 类 型 极其 复杂 ， 传 统 的 清洗 脏 数据 工 
作 单 调 乏 味 且 异 常 辛苦 。 如 果 能 利用 正确 的 工具 和 方法 ， 就 可 以 让 数据 清洗 工作 事半功倍 。 

本 书 从 文件 格式 、 数 据 类 型 、 字 符 编码 等 基本 概念 讲 起 ， 通 过 真实 的 示例 ， 探 讨 如 何 提取 和 清洗 关系 型 数 
据 库 、 网 页 文件 和 PDF 文档 中 的 数据 。 最 后 提供 了 两 个 真实 的 项 目 ， 让 读者 将 所 有 数据 清洗 技术 付 诸 实践 ， 完 
成 整个 数据 科学 过 程 。 

如 果 你 是 一 位 数据 科学 家 ， 或 者 从 事 数 据 科学 工作 ， 哪 怕 是 位 新 手 ， 只 要 对 数据 清洗 有 兴趣 ， 那 么 本 书 就 


适合 你 阅读 ! 


理解 数据 清洗 在 整个 数据 科学 过 程 中 的 作用 

掌握 数据 清洗 的 基础 知识 ， 包 括 文件 清洗 、 数 据 类 型 、 字 符 编码 等 

发 所 电子 表格 和 文本 编辑 器 中 与 数据 组 织 和 操作 相关 的 重要 功能 

学 会 常见 数据 格式 的 相互 转换 ， 如 JSON、CSV 和 一 些 特殊 用 途 的 格式 
采用 三 种 策略 来 解析 和 清洗 HTML 文 件 中 的 数据 

揭 开 PDF 文档 的 秘密 ， 提 取 需 要 的 数据 

借助 一 系列 解决 方案 来 清洗 存放 在 关系 型 数据 库 里 的 坏 数 据 

创建 自己 的 干净 数据 集 ， 为 其 打包 、 添 加 授权 许可 并 与 他 人 共享 

使 用 书 中 的 工具 以 及 Twitter 和 Stack Overflow 数 据 ， 完 成 两 个 真实 的 项 目 
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如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebookQturingbook.com, 
在 这 可 以 找到 我 们 : 
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